方案背景
如何在嘈杂的环境中(类如厨房/客厅/健身房的环境中)获取干净的人声,是电视/机顶盒/Sound bar等智能设备做语音交互和语音通话必须要解决的问题。然而在现实生活中,嘈杂的环境中,有多种噪声的存在,也阻碍了智能设备有效获取人声:这些噪声包含了:
- 设备自身播放的声音,如电视/机顶盒/Sound bar等智能设备正在播放音乐
- 环境中的稳态和非稳态的,发散的噪声,如风扇/空调等基础噪声
- 环境空间内的点噪声,如固定在某个位置的电视发出的声音等噪声
除了上述噪声,由于Sound bar/电视自身播放声音过大,会导致难以准确有效地获取有用的发言人声音。
一个高性能的语音接口方案在这种设备中,显得尤为重要。高性能语音接口方案,除了解决干扰的噪声问题,可同时提供远距离拾音和语音打断(Barge-in),这样的前端语音方案便可输出干净且有效的人声进行语音交互(ASR)和会议通话(Communication)。
方案概要
XMOS 2-mic 语音接口解决方案是2麦阵列高性价的方案,其内置了2-Mic阵列算法和复杂的DSP算法处理,能够在远处和嘈杂的环境,清晰地获取到有效的人声语音信号。
XMOS 2-mic 语音接口方案的主控为XVF3610-QF60B-C,且已经过了Amazon的AVS认证,其为单芯片解决方案,外接2个PDM麦克风即可实现2-mic阵列的前端声音信号处理。本方案重点能够同时处理两种方向的前端处理信号,分别为用于语音识别和用于会议通话。是市面上为数不多的语言接口方案。
- 语音识别(ASR,Automatic Speech Recognition ):提供给语音识别云端引擎进行识别使用;ASR音频前端处理主要是为了提高云端语音识别率,所以其处理后,频谱会偏向饱满,这样尽大可能减小了音频失真。同事增强了人声,抑制了背景声和噪声。
- 会议通话(Comms, communication and calling):提供给用户进行会议语音通话使用;Comms音频前端处理主要是为了提高人声的清晰度,同时做了较大的背景声和噪声抑制,频谱较为干净,但相对ASR输出有较大的失真,不建议做语音识别用。
XMOS 2-mic 语音接口方案能够处理上文所述的3种噪声,和提供2种前端方向声音输出,极大的满足了多种场景和多种设备上的使用
XMOS 2-mic 语音接口的主控芯片XVF3610内部集成了USB 2.0 PHY芯片,可以通过USB(UAC1.0协议)接口将处理后的语言信号传输给给智能设备(Host主机),其USB也完善了众多HID report协议,类如keyboard、 telephone以及consumer。在标准的安卓和Linux设备中,能够很好体现人机接口种的语音接口作用。
算法框图
算法模块的描述如下:
- AEC回音消除 :消除设备自身的播放的声音,以实现能够语音打断和提高SNR
- IC噪声源消除:扫描设备所在的空间内的声音情况并且消除房间所有的点噪声
- NS噪声抑制:去除所有的背景(包含发散的和反射的)噪声
- ADE自动时沿估算:动态调整音频参考信号,实现流畅、实时的语音打断
如上所述,在XMOS 2-mic 的IC噪声源消除环节中,将有效地去除环境中的点噪声。而在自动延时估算算法环节,则能够更加灵活协助的AEC参考信号的变动,以增大智能设备外置扬声器的可能性。XMOS 2-mic 尤其针对ASR的前端处理进行优化,以极大提高语言识别率和语音打断(barge-in)的成功率,减小了适应各大语言识别引擎的调试工作量。
经过上述的算法流程后,其输出的声音效果示例如下:
硬件框图
XMOS 2-mic 的主控芯片XVF3610为QFN-60封装,于2021年发布,其配套提供了2套免开发的标准固件,分别针对使用I2S集成到主板的固件和通过USB插入到主板的固件,其硬件框图如下:
其中:
- 使用2个PDM数字麦克风直连主控XVF3610
- 外置QSPI Flash ,用于存储XVF3610的固件
- XVF3610可使用I2S/USB连接host主机进行声音信号传输
在实际的应用场景中,集成了XVF3610的机顶盒主板部分的应用框图如下,其中XVF3610以I2S方式与机顶盒主控连接:
关于AEC参考信号的选取方式,XVF3610灵活提供了非常灵活多种的方式
- 通过USB UAC的方式,在Host主机中以USB接口的方式为XVF3610提供AEC的参考信号
- 通过I2S的方式,Host可以直接通过I2S为XVF3610提供参考信号;另外XVF3610可以增加ADC(ES7243)的方式接入模拟信号作为其AEC的参考信号。
方案特性
主控芯片
- XVF3610-QF60B-C, 免软件开发
- QFN-60封装
- 300mW功耗
音频接口
16KHZ/48kHz的音频采样率
- USB Audio Class 1.0(UAC 1.0)
- I2S master/slave
- 2个PDM数字麦克风
音频算法
- 立体声AEC
- IC 干扰源噪声消除
- NS 噪声抑制
- AGC 自动增益
- ADEC 自动延时估算
应用场景
XMOS 2-mic作为高性价的语音接口方案,智能设备中,不仅可能需要应用到语音交互(ASR),也有可能需要用来做语音通话(Communication)使用;尤其它专门优化了ASR的前端处理,极大提高了语音打断和语音识别的性能。结合其全部特性,推荐用户应用到如下或者类似的智能设备中;