Alexa研究人员开发了一个2麦克风语音识别系统击败了7麦克风阵列

众所周知，在语音识别中，两个麦克风比一个好。直观来说，这是有道理的：声波以不同的时间延迟到达多个麦克风，这可以用来增强来自特定方向的信号强度，同时减少来自其他方向的信号。然而，从历史上看，语音增强的问题——从噪声中分离语音——已经独立于语音识别而得到解决，并且文献表明这种方法产生不达标的结果。

然而，亚马逊Alexa部门的研究人员认为，他们已经开发了一种新颖的声学建模框架，可以通过统一语音增强和语音识别来提高性能。在实验中——当应用于双麦克风系统时——他们声称，与使用旧方法的七麦克风系统相比，他们的模型将语音识别错误率降低了9.5%。

他们用两篇论文描述了他们的工作(“用于远程语音识别的频域多通道声学建模”和“用于远程语音识别的多维几何空间声学建模”)，并计划下个月在布莱顿举行的国际声学会议和信号处理上发表演讲。

第一篇论文描述了一种多麦克风方法，它取代了独立的手动编码算法。这些算法确定波束形成器的方向(对传感器的输出进行空间滤波以增强波的振幅)，并通过单个神经网络识别语音信号。亚马逊目前的Echo扬声器阵容可以动态调整波束形成器，以适应新的声学环境。然而，通过在不同环境的大语料库中训练单个模型，研究人员可以取消适应步骤。

“晁盖的目的.技术是将单个(声束)导向任何方向，但这是一种计算密集型的方法，”Alexa Speech集团的语音科学家熊谷健一在一篇博客文章中解释道。“使用Echo智能扬声器，我们将多个波束形成器指向不同的方向，并确定产生最清晰语音信号的波束形成器.这就是为什么Alexa可以理解你的天气预报请求，即使电视在几码外肆虐。”

单个神经网络和传统模型都将波束形成器的输出传递给特征提取器，特征提取器的形式是对数滤波器组能量或多个不规则频带中信号能量的快照。在传统模型的情况下，它们对背景噪声的估计进行归一化，提取器的输出被传递给AI系统，AI系统计算对应于不同“电话”或短语音信息单元的特征的概率。

根据本文作者的说法，如果模型的每个组件(例如，特征提取器和波束形成器优化器)都单独初始化，性能将会得到提高。他们补充说，不同的训练数据使该模型能够处理不同设备类型的各种麦克风配置。

“在其他优势中，这意味着新设备或不太广泛使用的设备的ASR系统可以受益于更广泛使用的设备生成的交互数据，”Kumatani说。

猜你喜欢

最新文章