我用AI让听障人士听清风声

语 冰   

作为互联网起薪最高的职位之一,算法工程师是一个孤独的工作,和一般的职业相比,算法工程师大量的时间,都在自己想方案和写代码。他们常面临着一些未知的、还未解的问题,比如:怎么利用算法让听障人士从助听器里听清风声、雨声、溪流声……

在这个过程中,算法工程师们需要有理解真实场景的能力,需要有设计实验的能力,更重要的是,需要有真诚的好奇心。

出门的时候,付聪经常要戴一个大的“耳环”。

这是付聪作为算法工程师的秘密。平时为了测试各种声音,他经常要戴一个助听器在大街上晃荡,一束线从助听器下面伸出来,像一个巨大的“耳环”。这是处于测试阶段的助听器,那束线用来帮助工程师进行助听器调试。

“耳环”里的声音各种各样。好听的,不好听的。呼呼的噪声和啸叫声常常让人难以忍受,这是助听器放大后产生的噪声。这也是很多助听器佩戴用户的真实困扰,那些尖锐的声波插进耳朵,很难受,这经常让助听器变成了一个有点儿可怕的噪声制造者。

付聪他们用了几个月的时间去解决这个问题,无数次的真实场景录音、无数次的对录音分析,无数次的设计新方案,再不停地做优化、迭代、反馈。

这是算法工程师在产品研发和算法研发期间,要反复进行的战役。

今年5月,付聪、肖易明和其他的团队小伙伴一起,把问题的解法带到了20号刚刚发布的腾讯天籁远程听力服务平台上。

图│助听器产品

在与听障人士的不断沟通中,大家意识到,一直以来,助听器线下验配对于不少听障朋友都是个难题。听障人士基数大,专业验配师供不应求。平均一年需要更新多次,单次验配成本很高。门店资源分布不均,大部分验配店集中在一二线城市。

新发布的腾讯天籁远程听力服务平台,通过自研的AI声纹增强技术服务听障人群。未来,听障人士在家中打开腾讯会议APP,连接听力验配师,便能完成助听器验配。

在腾讯会议天籁实验室主任商世东看来,这个平台是在打通筛查、测听之后,腾讯“天籁行动”助力听障人士融入数字社会的“最后一公里”,实现覆盖前期筛查、中期诊疗、后期验配的听力健康服务闭环。

“天籁行动”是三年前腾讯公益慈善基金会、腾讯会议天籁实验室等团队联合发起的。通过开展AI测听、AI助听、公益救助等措施,为助听器厂商、验配师和有听力障碍的人,架起沟通和服务的桥梁,提高助听器的验配效率和使用体验。

图│远程听力服务平台的截图

付聪是2021年的时候,加入天籁行动项目的,刚过来时,他最主要的方向,放在了助听器相关的算法和验配功能的开发上。

对于一个听障患者来说,听障种类非常复杂。作为一个非听障患者,一开始横在付聪面前的问题是,自己很难知道输出的声音,对听障群体来说,是不是真的有好的助听效果。

为了解决这个问题,他们找了二十多个厂商和医院耳鼻喉科的大夫让他们帮忙测试,拿到了大量的一线临床反馈。

在所有困扰听障患者的声音里,“噪声”是一个非常尖锐又绕不开的声音。

为了解决尖锐的啸叫声,付聪他们经常要戴着助听器去体验各种环境下的各种声音,早晚高峰的地铁、热闹喧天的餐厅、人来人往的马路,他们会想很多场景,去处理和优化不同环境下的声音,他们甚至想到了自动麻将机和手搓麻将的声音。

分别录完之后,付聪和我这样形容两种声音之间的差别,手搓麻将机的声音虽然大,但是相对温和的,自动麻将机的声音也很大,但相对无序和嘈杂。

作为一个职业算法工程师,助听器一戴戴几十分钟,付聪调侃自己“都有点轻度听损了”。

为了测试风噪情况下的场景,付聪们常常需要追逐不同种类的风声。骑自行车的时候,有时候没风,他会故意骑得快一些。为了体验更大的风声,他们还会专门开车去深圳湾,那里有更大的风。

我问他,戴上助听器和不戴助听器,体验到的风声,有什么区别。

“不戴的时候,风是正常的呼呼的,戴上后,是很吵的噗噗声,像是去KTV唱歌,风声使劲吹到了麦克风上。”

很吵的呼呼声和呼呼声之间的缝隙,是算法工程师们在努力填充的事儿。他们是声音的美化师,通过自己的努力,把声音调整到比较舒适的区域。

但声音越干净越好么?

项目不同的阶段,付聪的答案是不一样的。

刚开始加入项目的时候,付聪觉得,把噪声降得更干净更好一些。后来,他遇到一个听障女生,单侧重度听损,她和付聪说,刨除特别吵的噪声和汽车经过的声音,走在大街的时候,她还是比较希望可以听到下雨的声音、风的声音、鸟鸣的声音、水流的声音,它来自真实又喧嚣的世界。她说,她不希望声音听上去是失真的,宁肯噪声不要降太多。

拿到了更多用户类似的反馈后,算法工程师们,从早期更注重产品本身的功能性,慢慢向怎么让声音变得更自然、更通透努力迭代。怎么降掉用户不希望听到声音,又同时保留用户希望听到的?后来,付聪和团队把算法优化集中在这个方向。

图│团队在韶关进行线下服务

与此同时,在2022年年底,付聪开始参与天籁远程验配系统的开发。

对于算法工程师来说,这是项目推进过程中另一座需要攀爬的高峰。助听器的验配过程是复杂的,线下验配,患者需要反反复复往验配店跑,做测试做调整,交互时间漫长,过程繁冗又复杂。

工程师们把足够丰富的使用接口搬到了线上,利用腾讯天籁AI算法和深度学习能力,让用户在远程可以做准确的听力验配。

在这个过程中,腾讯会议应用框架并不能完美支持相关的需求,为了解决这个问题,工程师们只能不停地提建议、提要求。

付聪说,当算法工程师,有时候像在做一道应用题,算法工程师要开展自己的想象,设计实验,寻找一个真实问题的答案,但不得不接受的一个现实是,问题有可能,或者有很大可能,是无解的。

对于这一点,95后肖易明感同身受,他用学习阶段来比喻算法工程师,在他看来,算法工程师是高中之后的阶段,在那个没有固定套路、固定模版的时代,一切都有赖于自己的探索。“算法工程师需要去探索,就是没有完整的结果,因为有可能你的想法是错的。”

具体来说,工程师们制定完自己的方向之后,会开始去查相应的国内外文献,看看市面上现有的方案,和最新的方案都是什么样的。

做完前期基本的工作之后,工程师们就开始了实现方案之旅。

因为市面上很多音频技术是通用的,通用往往意味着不一定适配,肖易明需要做的事儿,就是去想,根据现有的助听器音频处理的特性,有没有更好的办法和方案。有的时候,他也会拉着大家一起讨论,看看怎么做,才能取得更好的效果。

肖易明说,在腾讯,工程师之间的并肩奋斗感很吸引他。实习的时候,他常常会向同事们求助。有的时候,求助的内容,往往是他们自己工作份外的事儿,但都能得到同事们积极的响应。

2021年研究生毕业后,肖易明结束了在天籁实验室的实习,成为实验室的正式员工,负责天籁远程验配系统自主验配算法的设计并保证声学指标的准确性。

最开始过来的半年,肖易明只是单纯的做测试支持和执行,方案是领导做好的,他要做的,是去熟悉各种各样专业的仪器,以及实验室各种各样的设备。

刚进来,大概有一个多月的时间,肖易明都用来做测试方案的执行,一个月之后,随着助听器研究得越来越深入,他开始自己去制定方案。

刚开始接触天籁行动项目时,对肖易明并不是一个容易的过程。在武汉大学读研时,肖易明主要做的是语音信号研究,加入天籁实验室之后,他才真正接触到助听器,大量需要重新学习的东西,以及大量需要调整的逻辑摆在肖易明面前。他用了小半年的时间,去积累这些知识,才开始慢慢可以设计出自己想要而且也是用户想要使用的东西。

肖易明用“繁琐”形容一开始这个工作给自己带来的感受,“稍微一点改动导致需要的结果不一样的话,就需要重新定位到问题”,和他之前“‘抓大放小’的感觉很不一样。”

具体来说,助听器在测音质时,不同的佩戴方式,对应着不同的测试结果,肖易明需要反复重复多次不同的佩戴方式,来研究他们到底对结果有多大的影响,他们对应着N×N的排列组合,这一切,都有赖于一个算法工程师的耐心、细致。

一个天籁项目算法工程师的基本素养,是强迫自己听到很多次刺耳的啸叫。背后的原理是:需要定量衡量到底能覆盖住多大增益,听到啸叫,达到这个极限点,就知道不能再加更多的声音了。

耳机里经常传来刺耳的啸叫,40分贝或者50分贝的增益,正常人耳听到时是受不了,“恨不得把耳机摔掉”他笑着说,经常测试完一天之后,“甚至都感觉脑袋疼。”

加入项目以来,对肖易明来说,最大的挑战来自于“项目太赶了”。一个问题临时找不到人的就得顶上,“会比较累。”

对于肖易明来说,经过自己初步设计、大家一起讨论之后,设计出一套市面上没有的自动测听流程,这个事儿很吸引他。

算法工程师是一个孤独的工作,和一般的职业相比,算法工程师大量的时间,都在自己想方案和写代码,但他们也常常共享着一些美妙的属于这个职业的成就感时刻。

付聪说,助听器戴到老人耳朵上的那一刻,感觉自己悬着的心,总算是放下了。

那是他们第一次去韶关做产品捐赠的时候,他们把助听器挨个交到听障老人手上,开机、戴设备、调整增益,团队小伙伴问老人,你们能听懂我在说什么吗?

在这之前,老人是听不懂的。

“可以了。”三个字从老人口中缓缓又坚定地传出来。

“那时候觉得这个事情还是挺有成就感和意义的。”付聪说。