陕西自主可控声学回声

时间：2021年12月20日来源：

黑色这条线是标准NLMS算法的回声抑制比。我们可以看到，NLMS算法在收敛之后，回声抑制比只能到10个分贝左右，相对比较低。而双耦合算法在收敛之后，可以达到25个分贝以上，也就是说它比NLMS算法多15个分贝，这个优势是很明显的。接下来我们再看第二个示例，针对弱非线性失真的情况，左边是语谱，右边是回声抑制比。我们评估单讲性能的主要指标是回声抑制比和收敛速度。首先看一下NLMS算法，它在收敛之后，大概可以抑制22~25个分贝。这个算法的收敛速度很慢，大概经过100多帧之后才会进入到相对收敛的状态。再来看一下双耦合算法，在稳定之后，可以抑制35~40个分贝，比NLMS算法大概提升15~20个分贝的回声抑制比。同时它还有一个很明显的优势：收敛速度很快，几乎是回声到了之后，他瞬间就进入到收敛状态。接下来这个是针对不同手机机型的回声抑制比的比较。红色是双耦合算法，蓝色是NLMS算法，从这组数据里面，我们可以看到双耦合算法比NLMS算法普遍提升了大概10个分贝以上的回声抑制比，具有比较大的优势。再进入双讲测试场景。我首先介绍一下测试的示例，这组数据是一个视频会议的数据，左边这个是原始的麦克信号语谱，右边这个是回声参考信号语谱。

AEC声学回声，电话的扬声器的声音(包括反射声)，被麦克风拾取传送给远端，使远端说话人又听到自己的声音。陕西自主可控声学回声

他的是线性回声传递函数。基于这样的数学假设，我们收到的信号y就可以表示成发射的信号x分别跟这样两个传递函数进行卷积之后的结果。接下来我们对这个模型进行了适当的简化，简化主要是基于数学分解，我们假设非线性的传递函数，可以分解成线性跟非线性这样两个系统函数的组合形式，就会得到中间的方程。接下来对中间的方程进行变量替换，就得到这个表达式，这个表达式它的物理意义很清晰，我们从可以看到，整个回声路径是可以表示成线性回声路径跟非线性回声路径二者之和的形式，这是它的物理意义。2.双耦合自适应滤波器,基于这样一个数学模型，接下来我们就构建了一种新的滤波器结构，称之为双耦合自适应滤波器。这个滤波器跟传统线性的自适应滤波器相比，主要有两个方面的不同，个不同是传统的线性滤波器只有一个学习单元，而我们的这个滤波器有两个学习单元，分别是这里的线性回声路径滤波器，我们用Wl来表示。还有非线性的回声路径滤波器，我们用Wn来表示。第二个不同就是，我们在这两个滤波器之间还加入了一个耦合因子，这个耦合因子目的就是为了协同二者更好的工作，让二者能够发挥出比较大的效能，甚至能够起到1+1＞2的效果。

广东电子类声学回声介绍推出的双耦合的声学回声消除算法以及实验检验结果。

就得到了非线性滤波器的比较好解，它具有小二乘估计形式。第三步构建耦合机制。在介绍耦合机制之前，先说一下我对这种耦合机制的期望特性。我希望在声学系统的线性度非常好的情况下，线性滤波器起到主导作用，而非线性滤波器处于休眠的状态，或者关闭的状态；反过来，当声学系统的非线性很强时，希望非线性滤波器起到主导作用，而线性滤波器处于半休眠状态。实际声学系统往往是非线性与线性两种状态的不断交替、叠加，因此我们希望构建一种机制来对这两种状态进行耦合控制。为了设计耦合机制，就必须对线性度和非线性度特征进行度量。因此，我们定义了两个因子，分别是线性度因子和非线性度因子，对应左边的这两个方程。而我们进行耦合控制的基本的思想就是将这两个因子的值代入到NLMS算法和小二乘算法之中，调整二者的学习速度。为了便于大家对双耦合声学回声消除算法有一个定性的认识，我又画了一组曲线，左边一组对应的是线性回声的场景。我们首先来看一下NLMS算法，黄色曲线真实的系统传递函数，红色曲线是NLMS算法的结果。可以看到，在线性场景下，NLMS算法得到的线性滤波器可以有效逼近真实传递函数，进而能够有效抑制线性声学回声。下面再来看一下这个双耦合算法。

n)为加混响的远端参考信号x(n)+近端语音信号s(n)。理论上NLMS在处理这种纯线性叠加的信号时，可以不用非线性部分出马，直接干掉远端回声信号。图7(a)行为近端信号d(n)，第二列为远端参考信号x(n)，线性部分输出结果，黄色框中为远端信号。WebRTCAEC中采用固定步长的NLMS算法收敛较慢，有些许回声残留。但是变步长的NLMS收敛较快，回声抑制相对好一些，如图7(b)。线性滤波器参数设置#defineFRAME_LEN80#definePART_LEN64enum{kExtendedNumPartitions=32};staticconstintkNormalNumPartitions=12;FRAME_LEN为每次传给音频3A模块的数据的长度，默认为80个采样点，由于WebRTCAEC采用了128点FFT，内部拼帧逻辑会取出PART_LEN=64个样本点与前一帧剩余数据连接成128点做FFT，剩余的16点遗留到下一次，因此实际每次处理PART_LEN个样本点（4ms数据）。默认滤波器阶数为kNormalNumPartitions=12个，能够覆盖的数据范围为kNormalNumPartitions*4ms=48ms，如果打开扩展滤波器模式(设置extended_filter_enabled为true)，覆盖数据范围为kNormalNumPartitions*4ms=132ms。随着芯片处理能力的提升，默认会打开这个扩展滤波器模式，甚至扩展为更高的阶数。

我们把声学回声消除这个技术变成一张实体的插件（设备插卡）。

如果设置nlp_mode=kAecNlpAggressive，α大约会在30左右。如果当前帧为近端帧（即echo_state=false），假设第k个频带hNl(k)=，hNl(k)=hNl(k)^α=，即使滤波后的损失听感上几乎无感知。如图8(a)，hNl经过α调制之后，幅值依然很接近。如果当前帧为远端帧（即echo_state=true），假设第k个频带hNl(k)=，hNl(k)=hNl(k)^α=，滤波后远端能量小到基本听不到了。如图8(b)，hNl经过α调制之后，基本接近0。经过如上对比，为了保证经过调制之后近端期望信号失真小，远端回声可以被抑制到不可听，WebRTCAEC才在远近端帧状态判断的的模块中设置了如此严格的门限。另外，调整系数α过于严格的情况下会带来双讲的抑制，如图9第1行，近端说话人声音明显丢失，通过调整α后得以恢复，如第2行所示。因此如果在WebRTCAEC现有策略上优化α估计，可以缓解双讲抑制严重的问题。延时调整策略回声消除的效果与远近端数据延时强相关，调整不当会带来算法不可用的风险。在远近端数据进入线性部分之前，一定要保证延时在设计的滤波器阶数范围内，不然延时过大超出了线性滤波器估计的范围或调整过当导致远近端非因果都会造成无法收敛的回声。先科普两个问题：。1）为什么会存在延时？首先近端信号d。

在构建滤波器模型的过程中结合了非线性声学回声的一些特性。浙江无限声学回声是什么

实现对整个声学回声路径的变化进行有效跟进。陕西自主可控声学回声

首先这里的A和D比较好判断，他们都属于线性时不变系统。比较难判断的是C，因为在一些比较复杂的场景下，声学回声往往会经过多个不同路径的多次反射之后到达接收端，同时会带有很强的混响，甚至在更极端情况下，喇叭与麦克风之间还会产生相对位移变化，导致回声路径也会随时间快速变化。这么多因素叠加在一起，往往会导致回声消除算法的性能急剧退化，甚至完全失效。有同学可能会问，难道这么复杂的情况，不是非线性的吗？我认为C应该是一个线性时变的声学系统，因为我们区分线性跟非线性的主要依据是叠加原理，前面提到的这些复杂场景，它们依然是满足叠加原理的，所以C是线性系统。这里还要再补充一点，细心的朋友会发现B里面有一个功率放大器，同时在C里面也有一个功率放大器，为什么经B的功率放大器放大之后，可能带来非线性失真，而C的功率放大器不会产生非线性失真呢？二者的主要区别在于B放大之后输出是一个大信号，用来驱动喇叭。而C放大之后输出依然是小信号，通常不会产生非线性的失真。2.非线性声学回声产生的原因.非线性声学回声产生的原因，我一共列了两条原因。原因之一，声学器件的小型化与廉价化，这里所指的声学器件就是前面B里面提到的功率放大器和喇叭。

陕西自主可控声学回声

深圳鱼亮科技有限公司位于龙华街道清华社区建设东路青年创业园B栋3层12号，交通便利，环境优美，是一家服务型企业。是一家有限责任公司（自然）企业，随着市场的发展和生产的需求，与多家企业合作研究，在原有产品的基础上经过不断改进，追求新型，在强化内部管理，完善结构调整的同时，良好的质量、合理的价格、完善的服务，在业界受到宽泛好评。公司业务涵盖智能家居，语音识别算法，机器人交互系统，降噪，价格合理，品质有保证，深受广大客户的欢迎。深圳鱼亮科技将以真诚的服务、创新的理念、***的产品，为彼此赢得全新的未来！

上一篇：新疆移动声学回声介绍

下一篇：河北数字声学回声是什么