论文翻译:2020_Residual Acoustic Echo Suppression Based On Efficient Multi-Task Convolutional Neural Netw

不管现实多么惨不忍睹,都要持之以恒地相信,这只是黎明前短暂的黑暗而已。不要惶恐眼前的难关迈不过去,不要担心此刻的付出没有回报,别再花时间等待天降好运。真诚做人,努力做事!你想要的,岁月都会给你。论文翻译:2020_Residual Acoustic Echo Suppression Based On Efficient Multi-Task Convolutional Neural Netw,希望对大家有帮助,欢迎收藏,转发!站点地址:www.bmabk.com,来源: 原文

博客作者:凌逆战(转载请注名出处)

论文地址: 基于高效多任务卷积神经网络的残余声回波抑制


摘要

  回声会降低语音通信系统的用户体验,因此需要完全抑制。提出了一种利用卷积神经网络实现实时残余声回波抑制的方法。在多任务学习的背景下,采用双语音检测器作为辅助任务来提高RAES的性能。该训练准则基于一种新的损失函数,我们称之为抑制损失,以平衡残余回波的抑制和nearend信号的失真。实验结果表明,该方法能有效抑制不同情况下的残余回波。

关键词:residual acoustic echo suppression, convolutional neural network, multi-task learning, suppression loss

1  引言

  在语音通信系统中,当麦克风与扬声器处于一个封闭的空间中时,需要捕获麦克风与扬声器之间耦合产生的回声信号,需要声学回声消除(AEC)。 传统的AEC算法由两部分组成:自适应线性滤波器(AF)[1]和非线性回波处理器(NLP)[2]。 AEC中存在许多挑战,例如扬声器引起的非线性特性,而且很难找到AF输出与远端信号之间的非线性关系。 换句话说,在AEC系统中,为了完全去除残留的回声,NLP极有可能对近端信号造成实质性的破坏。

  近年来,机器学习被引入到声学回声消除和抑制中。基于远端信号及其非线性变换信号[3],采用两层隐层的人工神经网络对残差回声进行估计。用远端信号和AF输出信号训练深度神经网络(DNN)可以预测更准确的掩码[4,5]。然而,由于相位信息的缺乏,在向神经网络输入幅度谱并估计输出幅度谱掩码时,很难在去除全部声回波[6]的同时保留近端信号。然而,由于增加了更多的输入特征,这样的相位谱使得模型过于复杂,无法应用于大多数个人终端[7,8]。在最近的一项研究中,相位敏感权值被用来利用AF输出和近端信号[9]之间的相位关系来修改掩模。

  在本文中,我们提出了一种新的残余声回声抑制(RAES)方法,该方法采用一种高效的多任务卷积神经网络(CNN),将远端参考信号和AF输出信号作为输入,相敏掩模(PSM)作为目标。采用一种新的抑制损失来平衡残差回声抑制和近端信号保留之间的平衡。即使在传统的AEC中,精确的双语检测器(DTD)也是必不可少的,本文还将双语状态的估计作为提高掩模预测精度的辅助任务。实验结果表明,该方法在模拟和真实声环境中都能有效抑制残余回声,显著降低近端信号的失真。

  本文的其余部分组织如下。第二节介绍了传统的AEC系统。本文第三节介绍了所提出的方法,第四节给出了比较的实验结果。最后,第五部分是全文的总结。

2  AEC框架

  在AEC框架中,如图1所示,麦克风接收到的信号$d(n)$由近端信号$s(n)$和回声$y(n)$组成:

$$公式1:d(n)=s(n)+y(n)$$

AEC的目的是去除回波信号,同时保持近端信号的$\hat{s}(n)$。

  回声$y(n)$包括两部分:线性回声(包括直接远端信号及其反射信号)以及扬声器引起的非线性回声。AF模块自适应估计线性回波$\hat{y}(n)$,并将其与麦克风信号$d(n)$相减,得到输出信号$e(n)$。传统的NLP从$e(n)$和$d(n)$计算抑制增益,进一步抑制残留回波。然而,在双端通话中使用这种方法时,近端信号极易受到严重的破坏。

3  提出的方法

3.1  特征提取

  AF模块用于消除麦克风信号中的一部分线性回声。 有很多方法可以实现线性AF算法。 从理论上讲,所提出的RAES可以与任何标准AF算法一起使用,并且本文中使用了子带归一化最小均方(NLMS)算法。

  输入特征包括如上所述的AF输出误差信号$e(n)$和远端参考信号$u(n)$的对数谱。 我们使用短时间傅里叶变换(STFT)将$e(n)$和$u(n)$转换到频域,采用大小为K的平方根汉宁窗,因此,频点的实际数量为K/2,丢弃直流bin。 我们将M帧串联作为输入特征,以提供更多的时间参考信息。 串联的另一个优点是,它可以推动网络学习回声和远端信号之间的延迟。

3.2 网络框架

  本文网络的主干是受MobileNetV2的启发,其中大部分的全卷积操作被depthwise和pointwise卷积代替,以降低计算代价[10]。总体网络架构如图2所示,其中Conv()和Residual BottleNeck()()中的前三个参数分别为output channel、kernel size和stride size,如果没有指定,默认的stride大小为1。FC是指具有输入和输出尺寸的全连接层。Residual BottleNeck()的详细架构如图2 (a)所示,其中residual connection融合了high-dimension和low-dimension特征。

  值得一提的是,在双向通话(double talk)中进行mask(掩膜)预测是一项具有挑战性的任务。通过4个Residual BottleNeck blocks提取特征后,我们在右分支中使用DTD预测任务,以减轻左掩模预测分支的负担。因此,多任务学习可以使网络更加关注双向通话掩码的预测,如果DTD任务检测到single talk period(单说话周期),则可以很轻松地将掩码(mask)设置为1或0。

 

论文翻译:2020_Residual Acoustic Echo Suppression Based On Efficient Multi-Task Convolutional Neural Netw

a、Inverted Residual BottleNeck($C_{out}$, kernel, stride)

论文翻译:2020_Residual Acoustic Echo Suppression Based On Efficient Multi-Task Convolutional Neural Netw

(b)总框架

图2  提出K = 128时的网络架构

3.2  训练targets与损失

  理想振幅掩模(Ideal amplitude mask,IAM)在不考虑相位信息的情况下,常被用作语音增强和残差回波抑制的训练目标。在本文中,我们使用相位敏感膜(phase-sensitive mask,PSM)[11],其表达如下

$$公式2:g^{\mathrm{PSM}}(l, k)=\frac{|S(l, k)|}{|E(l, k)|} \cos (\theta)$$

其中$\theta=\theta^{S(l, k)}-\theta^{E(l, k)} \cdot S(l, k)$和$E(l,k)$表示第$l$帧和第$k$频率bin的near end(近端)和AF输出信号,PSM在网络中被截断在0和1之间。然后通过以下公式计算所提出的RAES $\hat{S}(l,k)$在频点$(l,k)$中的频域输出

$$公式3:\hat{S}(l, k)=g^{\mathrm{PSM}}(l, k) E(l, k)$$

  最小平方误差(MSE)在训练过程中用作损失函数。为了完全消除回声,在某种程度上使近端信号失真是不可避免的。只要网络的估计不够完美,RAES要么会使近端信号失真,要么会保留一些残留回波,或者更糟,两者都有。一方面,从本质上讲,AEC的主要目的是消除麦克风信号中的所有回声,同时尽可能保留近端信号。因此,与保持近端信号质量相比,抑制回声的要求更高。另一方面,MSE损失是对称的度量,因为相同数量的正负偏差将被视为完全相同的损失。因此,直接使用MSE无法控制抑制回声和保留近端信号之间的折衷。本文的解决方案是应用参数Leaky ReLU函数来计算target与估计掩膜$\Delta(l, k)$在$(l,k)$频率bin上的加权均方距离,其抑制比为$\alpha$

$$公式4:\Delta(l)=\left\{\begin{array}{ll}
\frac{1}{K} \sum_{k=0}^{K-1}\left[g_{t}(l, k)-g_{e}(l, k)\right]^{2}, & \text { if } g_{t}(l, k)<g_{e}(l, k) \\
\frac{1}{K} \sum_{k=0}^{K-1}\left\{\alpha_{k}\left[g_{t}(l, k)-g_{e}(l, k)\right]\right\}^{2}, & \text { else }
\end{array}\right.$$

其中$g_t(l,k)$和$g_e(l,k)$分别是目标和估计在频点$(l,k)$的相位敏感掩模,我们称其为抑制损失。作为参数的$k$个频点中的抑制比$\alpha_k$被设置在0和1之间,k越小,抑制将越严重。可以通过设置不同的$k$值在每个频点中调整抑制程度。 为简化起见,我们在所有频点中都设置了相同的值。

  根据以下规则获得第$l$帧中的DTD状态:

$$公式5:\operatorname{DTD}(l)=\left\{\begin{array}{ll}
0, & \text { if } \max (|y(l, k)|)<0.001 \& \max (|s(l, k)|)>0.001 \\
1, & \text { if } \max (|s(l, k)|)<0.001 \& \max (|y(l, k)|)>0.001 \\
2, & \text { otherwise }
\end{array}\right.$$

  其中DTD状态0、1、2分别对应于信号近端通话、单远端通话和双端通话。由于数据集单方通话和双方通话之间的不平衡,将focusing参数$Y^*=2$的focal损失[12]作为DTD训练任务的损失函数,我们将[13]中的两种损失与两个权重结合起来,通过网络更新两个权重。

4  实验结果

4.1 数据集

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。

文章由极客之音整理,本文链接:https://www.bmabk.com/index.php/post/159059.html

(0)
飞熊的头像飞熊bm
0 0

相关推荐

  • Golang动态高效JSON解析技巧 Go语言

    Golang动态高效JSON解析技巧

    0 0135
    青莲明月的头像 青莲明月
    2024年4月13日
  • MDS(multidimensional scaling)多维尺度分析 Python

    MDS(multidimensional scaling)多维尺度分析

    0 0234
    飞熊的头像 飞熊
    2023年9月5日
  • 【django】配置Jinja2模板引擎【2】 Python

    【django】配置Jinja2模板引擎【2】

    0 0178
    飞熊的头像 飞熊
    2023年3月5日
  • python——单例模式 Python

    python——单例模式

    0 0237
    飞熊的头像 飞熊
    2023年3月5日
  • Flask笔记六之中间件操作 Python

    Flask笔记六之中间件操作

    0 0351
    小半的头像 小半
    2023年12月9日
  • java: mysql 每次删除定量数据 后端开发

    java: mysql 每次删除定量数据

    0 0194
    小半的头像 小半
    2022年5月28日
  • mybatis 报错 :No constructor found Python

    mybatis 报错 :No constructor found

    0 0193
    seven_的头像 seven_
    2023年2月21日
  • 二十三、Kubernetes中Pod控制器分类、ReplicaSet(RS)控制器详解 后端开发

    二十三、Kubernetes中Pod控制器分类、ReplicaSet(RS)控制器详解

    0 0179
    飞熊的头像 飞熊
    2023年5月26日
  • 【Nginx】解决Post请求变Get的问题 Java

    【Nginx】解决Post请求变Get的问题

    0 0298
    小半的头像 小半
    2022年5月22日
  • 【python】Django系列07-Django中的模板(第一讲) Python

    【python】Django系列07-Django中的模板(第一讲)

    0 0201
    小半的头像 小半
    2023年2月13日
  • 项目实战02_po/do/vo/dto/bo 选择与应用 Java

    项目实战02_po/do/vo/dto/bo 选择与应用

    0 0261
    飞熊的头像 飞熊
    2023年4月6日
  • ORM多表查询——关联查询 Python

    ORM多表查询——关联查询

    0 0250
    飞熊的头像 飞熊
    2023年3月5日

发表回复

登录后才能评论

扫我!扫我!扫码!

论文翻译:2020_Residual Acoustic Echo Suppression Based On Efficient Multi-Task Convolutional Neural Netw

站长精选

  • 采用 SpringCloud 开发的一款医院信息系统(附源码)

    采用 SpringCloud 开发的一款医院信息系统(附源码)

    2023年12月13日

  • 基于 RocketMQ 的分布式事务解决方案

    基于 RocketMQ 的分布式事务解决方案

    2022年11月3日

  • 从原理到实践,分析 Redisson 分布式锁的实现方案

    从原理到实践,分析 Redisson 分布式锁的实现方案

    2023年10月30日

  • Docker 入门终极指南,详细版!别再说不会用 Docker 了!

    Docker 入门终极指南,详细版!别再说不会用 Docker 了!

    2023年7月20日

  • Java项目到底要不要部署在 Docker 里?

    Java项目到底要不要部署在 Docker 里?

    2024年2月7日

  • SpringBoot 集成 Dubbo 启用 gRPC 协议

    SpringBoot 集成 Dubbo 启用 gRPC 协议

    2023年5月5日

  • IDEA 源码阅读利器,你居然还不会?

    IDEA 源码阅读利器,你居然还不会?

    2024年3月17日

  • 感受 Lambda 之美!

    感受 Lambda 之美!

    2024年2月1日

  • SpringBoot 使用 ChatGPT Api 开发一个聊天机器人

    SpringBoot 使用 ChatGPT Api 开发一个聊天机器人

    2023年2月27日

  • SpringBoot 根据各地区时间设置接口有效时间

    SpringBoot 根据各地区时间设置接口有效时间

    2024年2月1日

极客之音——专业性很强的中文编程技术网站,欢迎收藏到浏览器,订阅我们!

玻璃钢生产厂家信阳名人玻璃钢雕塑新浪南京玻璃钢雕塑厂现代玻璃钢卡通雕塑源头好货衡水玻璃钢仿真水果雕塑深圳特色商场美陈哪里有玻璃钢人物不锈钢镂空雕塑定制浙江玻璃钢雕塑摆件定制潜江玻璃钢牛雕塑无锡红色玻璃钢花盆玻璃钢瓜果雕塑厂家电话信阳哪里有玻璃钢雕塑厂家黄山玻璃钢雕塑哪家好超时空美陈商场普洱玻璃钢雕塑供应大连玻璃钢花盆定制南阳玻璃钢雕塑制造广场校园玻璃钢雕塑定做价格山东玻璃钢雕塑生产商武安市商场美陈玻璃钢雕塑怎么做漯河玻璃钢浮雕大型不锈钢雕塑北京商场美陈平顶山玻璃钢花盆定做户外景观玻璃钢雕塑厂家报价滨州市玻璃钢雕塑定制宜春步行街玻璃钢雕塑制作丽水特色玻璃钢雕塑供应商常宁玻璃钢价值观雕塑银川玻璃钢商场美陈丽水玻璃钢雕塑多少钱香港通过《维护国家安全条例》两大学生合买彩票中奖一人不认账让美丽中国“从细节出发”19岁小伙救下5人后溺亡 多方发声单亲妈妈陷入热恋 14岁儿子报警汪小菲曝离婚始末遭遇山火的松茸之乡雅江山火三名扑火人员牺牲系谣言何赛飞追着代拍打萧美琴窜访捷克 外交部回应卫健委通报少年有偿捐血浆16次猝死手机成瘾是影响睡眠质量重要因素高校汽车撞人致3死16伤 司机系学生315晚会后胖东来又人满为患了小米汽车超级工厂正式揭幕中国拥有亿元资产的家庭达13.3万户周杰伦一审败诉网易男孩8年未见母亲被告知被遗忘许家印被限制高消费饲养员用铁锨驱打大熊猫被辞退男子被猫抓伤后确诊“猫抓病”特朗普无法缴纳4.54亿美元罚金倪萍分享减重40斤方法联合利华开始重组张家界的山上“长”满了韩国人?张立群任西安交通大学校长杨倩无缘巴黎奥运“重生之我在北大当嫡校长”黑马情侣提车了专访95后高颜值猪保姆考生莫言也上北大硕士复试名单了网友洛杉矶偶遇贾玲专家建议不必谈骨泥色变沉迷短剧的人就像掉进了杀猪盘奥巴马现身唐宁街 黑色着装引猜测七年后宇文玥被薅头发捞上岸事业单位女子向同事水杯投不明物质凯特王妃现身!外出购物视频曝光河南驻马店通报西平中学跳楼事件王树国卸任西安交大校长 师生送别恒大被罚41.75亿到底怎么缴男子被流浪猫绊倒 投喂者赔24万房客欠租失踪 房东直发愁西双版纳热带植物园回应蜉蝣大爆发钱人豪晒法院裁定实锤抄袭外国人感慨凌晨的中国很安全胖东来员工每周单休无小长假白宫:哈马斯三号人物被杀测试车高速逃费 小米:已补缴老人退休金被冒领16年 金额超20万

玻璃钢生产厂家 XML地图 TXT地图 虚拟主机 SEO 网站制作 网站优化