ITAP2021 | 诺尔康人工耳蜗中噪声处理算法的应用-打印文章

ITAP2021 | 诺尔康人工耳蜗中噪声处理算法的应用

作者：黄穗文章来源：诺尔康人工耳蜗点击数 909 更新时间：2021/4/22 20:13:24 文章录入：admin

噪声对人工耳蜗用户的影响

人工耳蜗植入是目前世界公认的帮助重度和极重度听力障碍患者恢复听力的唯一有效手段，也是最成功的的器官替代类植入式人工神经电刺激产品。该产品之所以效果如此好的原因有两方面，一方面，听神经对于不同频率声音在耳蜗后分布的规律性特别适宜工程设计与实现；另一方面，大脑对于声音信号具有强大的处理能力，在一般情况下仅提取声音信号的包络就可以使大脑完成对语音的理解与处理。事实上，正常人的耳蜗能够接收除了语音信号包络外的大量冗余信息（一般我们称为语音信号的精细结构），但是人工耳蜗用户由于各种因素限制，无法分辨如此细微的信号区别。因此，人工耳蜗的信号处理算法基本如下图所示，将声音转化到频域进行平均能量计算，再通过非线性压缩，发送电刺激到对应电极。

人工耳蜗一般言语处理策略框图

在安静环境下人工耳蜗用户一般能够取得令人满意的言语识别率，但是在噪声环境中，他们的言语识别率会出现陡降的现象，而他们在噪声中对目标语音信号的分辨能力远不及正常人。这主要是由于人工耳蜗用户无法像正常人一样接收到语音的精细结构，而噪音严重影响了包络中的正常语音信号成分，破坏了大脑对言语理解和目标捕捉的Top-Down和Bottom-Up机制，从而使大脑无法对信号进行甄别和理解。

不同信噪比下不同电极数刺激的人工耳蜗用户言语识别率变化

（Shanon, et al, 2001 ）

从80年代末人工耳蜗面世以来，技术人员就一直尝试使用不同技术提高人工耳蜗使用者在噪声中的效果，比如光刺激人工耳蜗、改变电极长度、通过不同电极同时刺激产生虚拟通道或者在刺激算法中加入一定精细结构。从目前来看，这些方法都没有得到公认的明显效果。而采用最简单最直接的信号降噪技术成为了目前人工耳蜗届的主流技术，特别是通过与声音场景识别算法进行结合，在不同的场景下打开不同的降噪模块也成为公认的效果最佳的技术路径。

现代人工耳蜗信号处理示意图

诺尔康人工耳蜗进入市场已经进入第十个年头，在这十年里，诺尔康人工耳蜗在言语处理算法上做了很多工作，尝试使用不同的方法帮助用户提升使用效果。本文将着重介绍诺尔康噪声处理算法，其中包括单麦克风降噪、双麦克风降噪和自动场景识别等算法的进展和效果。

eVoice（清听）降噪算法

该算法属于单麦克风降噪算法，将麦克风采集的带噪语音信号经FFT变换后获得频域带噪语音谱（幅度谱或功率谱），然后基于其估算出噪声谱，经特别计算方法进一步估计补偿噪声谱，利用带噪语音谱减去噪声谱从而获得干净的语音信号。

eVoice（清听）降噪算法框图

从下图中可以看到，该算法可以准确的估计噪声水平，并通过滤除技术将算法还原成为目标语音信号。由于直接在每个通道上进行滤波，与人工耳蜗通用处理算法实现无缝对接，从而大大降低了计算成本。

该算法最大的优势在于由于可以自动估计噪声能量，所以实现智能降噪，即在噪声比较强的环境下尽可能滤除噪声，在噪声比较弱的环境下尽可能保留原始声音，在不同的信噪比环境下，可以尽可能使患者获得最佳的听声效果。

eVoice算法在语谱图中的效果

在我们的临床试验中，共有11位受试者（5男6女）参与，他们使用301医院和House耳研所的短句材料，在信噪比为5dB，10dB和15dB环境（语谱噪声和嘈杂噪声）下，对比打开和不打开降噪算法的效果。从下图可以看到语谱噪声情况下，5dB信噪比时言语识别率相较于不使用该策略提升5.6%，10dB信噪比时言语识别率提升7.6%。嘈杂噪声情况下，5dB信噪比时言语识别率相较于不使用该策略提升8%，10dB信噪比时言语识别率提升7.8%。

语谱噪声下的言语识别率

杂噪声下的言语识别率

ABeam降噪算法

基于双麦克风的ABeam降噪算法主要是基于在人与人交流过程中通过面对面的方式进行语音沟通交流，即在人的正前方为需要听到的目标语音，人的侧方或后方为交流过程中不想听的起干扰面对面沟通交流的环境噪音。在诺尔康人工耳蜗言语处理器中，通过一前一后、空间分离的两个全向麦克风同时采集语音信号，获得空间分离的语音信号源和噪声源，经过一系列算法处理最终获得增强前向目标语音信号强度，同时抑制后向、侧向噪声信号强度。

ABeam降噪算法示意图

ABeam降噪算法的基本工作原理，是利用不同方位的声源发出的声音，到达一前一后两个麦克风的时间延时不同的特点，反向判断目标声源以及噪声源的方向，再利用延时相加，以及差分麦克风阵列中分别控制目标声源及噪声源的增益（分别为1和0）等方法，提升信噪比，降低噪声干扰。

ABeam算法基本框图

为了测试ABeam算法，我们将12个扬声器组成精度为30度的扬声器阵列，依次播放测试输出幅度，再通过将麦克风再旋转15度，再依次播放扬声器，最终合并得到分辨率更高的极性增益图。从测试结果来看，我们的处理器可以明显抑制后方和侧方的噪声。

ABeam算法测试扬声器阵列

ABeam算法降噪效果极性增益图

（蓝色为动态跟踪噪声源位置算法效果，

红色为固定噪声源位置算法效果）

在临床试验中，共有14名受试者（6男8女）参加试验，试验设置使用全向性麦克风实时采集声音信号进行扬声器校准，以确保12个扬声器每个扬声器输出为80 dB SPL，误差范围+/-1 dB SPL，扬声器高度距离地面1m，距麦克风中心位置半径为1m。通过特定开发的声场控制平台，设定目标语音参考角度为0°，语音声压级为70dB SPL，2种测试程序（打开关闭ABeam算法），2种信噪比（0dB、5dB），4个角度噪声源（0°、90°、180°、270°），参考噪声采用SSN，测试过程中噪声大小随信噪比SNR调节。

ABeam算法效果比较表

从效果可以看出，在0dB和5dB情况下，ABeam算法在左侧、右侧和正后方三个方向都有非常明显的效果，平均言语识别率分别提升22.23%和14.83%。

自动场景识别技术

在第一节中我们介绍了降噪技术配合场景识别技术，使用户能够在不同场景下使用不同算法，才能最大可能地提高用户的听声效果。诺尔康使用了人工智能技术对场景进行识别，给用户带来了极大的便利。该技术免除了每当处于不同的场景下，用户需要自己手动切换声音处理算法的额外操作。其次，该技术可以帮助用户选择最佳的声音处理策略组合。有测试表明，用户凭主观听声感受选择的策略组合大都不是最佳的（即言语识别率最高），因此，在将最佳的声音处理策略组合与对应的场景捆绑后，使用自动场景识别技术，便可以完全自动的帮助用户选择当前最优的策略组合，提高用户在该环境下的言语识别率。

声音通过麦克风采集进来以后首先通过幅频预处理，然后提取出6种不同的特征值，送给神经网络分类器进行分类。目前，我们识别的场景一共有5种，分别是安静、语音、噪声、带噪语音和音乐环境。除去安静环境外，余下4种环境声通过结构为net[6*15*15*4]的神经网络分类器分类，其分类正确率为86.23%。

算法框图

神经网络分类器模型结构为net = net[6*15*15*4]

考虑到用户的听声感受，不会因为策略的频繁切换而感到不适，在系统的最终判定阶段增加了场景切换管理，只有当系统处于某一场景一点时间后，才会将言语处理策略切换到该场景对应的模式，确保听声感受的平稳性。用户可以在诺尔康的专用诺音APP上查询到当前识别的场景，也可以手动切换场景。

除此以外，为了进一步提升场景识别的成功率，我们还与腾讯天籁实验室合作，尝试利用手机端更高的计算能力使用更复杂更高级的机器学习算法进行场景识别。从目前的数据来看，使用手机端的算法，场景识别的成功率可以进一步提升到95%以上。

未来我们计划与腾讯保持深度合作，将他们在噪声处理方面的技术优势与诺尔康人工耳蜗进行结合，推出更好的降噪算法，提升用户的使用体验，使每一位听障人士真正无障碍地生活。

诺音APP场景识别界面

腾讯天籁场景识别算法介绍

作者介绍

黄穗博士2006年在上海交通大学信息工程专业本科毕业，分别在2008年和2013年于日本早稻田大学和美国加州大学尔湾分校获得电子工程专业硕士和博士学位。目前担任浙江诺尔康神经电子科技股份有限公司研究院副院长、监事长等职务。主要从事从工程上实现和改进神经电子领域的有源三类植入医疗器械，包括治疗听障人士的人工耳蜗，听性脑干刺激系统，治疗视障人士的人工视网膜等神经电子产品的开发与研究。先后负责或参与国家级、省级和市级项目8项，项目总金额超过1.2亿元。在国际顶级期刊和会议上发表论文十一篇，获得美国专利一项，中国专利二十八项。曾获浙江省科技进步二等奖和中国残疾预防及康复科学技术奖二等奖。

黄穗博士在ITAP2021会议上报告

*本文作者黄穗

点击这里，可咨询听力问题，预约听力产品

寰俊鍥剧墖_20201116095843.jpg