端到端英语发音检错在作业帮的应用_AI&大模型_作业帮技术团队

首页
技术会议
课程
直播
专题
电子书
视频
AI指南
榜单
研究中心



 写点什么

文 / 杨帆，王强强

背景与需求

目前，英语是世界通用语言，掌握了英语就有了与世界沟通、交流的工具。但是，中国普遍存在的“哑巴英语”、“中式英语”、发音不准等现象，极大地影响了英语学习者的听说能力，以及在实际生活中对英语的使用。近年来，随着素质教育改革，英语口语考试被逐步纳入中高考，学生们提升口语水平的需求也日益凸显。然而，口语学习需要大量的练习、及时的反馈和针对性的指导，但课上、课后都很难有一对一的教学机会；老师通常需要花费数倍于批改书面试卷的时间，才能完整地听完学生的语音并给出全面的反馈。采用计算机辅助语言学习技术，通过检测英语学习者的发音是否正确、错误的具体原因，可以及时、高效、便捷地提供针对性的发音指导，且不受传统面授的时空限制。

行业现状

现有的语音评测应用主要是对学习者的发音进行打分，但是很少反馈失分的具体原因并进行针对性地指导，对学习者改善发音助力有限。近年来，音素级发音检错技术在研究领域获得了越来越多的关注，可以检测学习者发音中多读、漏读和错读的音素，还可以通过根据发音错误诊断推送相应的文字及视频发音教程，给学习者提供针对性的专家级发音指导意见。依托作业帮专业的英语教师团队、丰富的口语练习题库、庞大的下沉市场用户规模、海量的中国学生口语练习数据，英语发音检错技术可以在课上、课后为所有英语学习者提供个性化、精准化的辅导，实现科技助力因材施教、教育普惠、“让优质教育触手可及”。

传统的语音评测主要通过强制对齐（Forced Alignment）获得朗读文本中各个音素在音频中的起止时间，然后在各个音素片段内计算目标发音音素与其它音素的概率比值，即 GOP（Goodness of pronunciation）分数，最后通过设定阈值等方式判断各个音素的发音是否正确，或者综合各音素的 GOP 分数回归得到单词、句子的评分。

这类方案主要存在以下几点问题：

发音错误时强制对齐得到的时间边界可能与实际发音音素序列的时间边界不一致，导致计算的实际发音的概率值偏低，无法提供准确的检错与诊断；若在对齐网络中扩展常见的发音错误，需要专家知识并且很难覆盖实际应用中的各种可能；
强制对齐方案无法准确地处理增读、漏读音素的情况，尤其是增读；
GOP 计算对时间边界比较敏感，但是很难获得含准确的时间边界标注的大批量语料库；
传统的帧级识别模型，不论是 GMM-HMM 还是神经网络模型，训练流程都较为繁琐。近年来，端到端模型也被广泛应用于语音识别领域，并达到了和传统方法可比的性能，大大简化了模型的训练流程。在发音检错场景下，采用端到端音素识别可以直接识别学习者的实际发音音素序列，然后，通过最短编辑距离与目标发音音素序列进行匹配、对比，得到正确朗读、增读、漏读、错读音素的检错与诊断结果。相对于传统的强制对齐方案，该方案不需要精确的时间边界，并且能够很方便地检测增读、漏读音素的情况。

作业帮的实践

为了便于后续讨论，首先介绍我们采用的数据集和评价指标。评价发音检错与诊断任务最常用的数据集是 L2-ARCTIC[1]。L2-ARCTIC 是由第一语言分别为印地语、韩语、普通话、西班牙语、阿拉伯语和越南语的非英语母语人士录制的英语句子朗读数据，包含音频、提示文本和标注，标注了音频中增读、漏读和错读的音素。发音检错与诊断任务的评价指标主要有：

虚警率：实际发音正确的音素中，被检测为发音错误的比例；
召回率：实际发音错误的音素中，被检测为发音错误的比例；
诊断正确率：正确地判断为发音错误的音素中，识别为实际发音音素的比例。下面介绍端到端发音检错技术在作业帮落地实践过程中遇到的问题与解决方案。

端到端模型选型

目前主流的端到端语音识别技术有 CTC（Connectionist Temporal Classification）、基于 attention 的 encoder-decoder（AED）、RNN-T（Recurrent Neural Network Transducer）三类[2]。其中，CTC 基于条件独立性假设，即假设序列中的每个元素是互相独立的，而 AED 和 RNN-T 模型均采用自回归解码，即每一时刻的输出都依赖于之前的输出，隐式地学习了序列中的语言模型。虽然在语音识别任务上，相对于 CTC，AED 和 RNN-T 模型都有更好的效果，但是考虑到在发音检错任务中，学习者发音错误后的音素序列模式可能与常见的音素组合不一致，为了避免语言模型对发音错误召回的影响，我们首先验证了 CTC 模型的效果。

基于 attention 的文本信息融合

实验结果表明，仅采用 CTC 音素识别准确率较低，发音检错虚警率约为 21%，这在教学场景下是不可接受的。借鉴人进行发音评价的过程，在无文本参考的情况下转写实际发音音素序列较为困难，但是已知目标发音，判断实际发音与目标发音是否相近，这一任务就相对简单许多。同样的，将目标发音序列也作为模型输入，为模型提供额外的先验知识，可以降低模型学习的难度。

参考论文[3]中的实现，模型结构如下图所示：

发音错误数据增强

由于标注真实发音错误的音频需要专业人士耗费大量的时间精细地标注，较难大批量获取，因而模型训练集中绝大部分为发音正确的数据。为了增强模型的检错能力，避免原样输出参考音素序列，采用随机替换输入音素序列中的音素来模拟发音错误的情况。

优化后，虚警率由原来的 21%显著降低至 9%左右，同时,诊断正确率也由原来的 65%提升至 77%。但是，发音错误召回率仅有 57%。

确定功能边界

分析发现，高频虚警、高频未召回的音素对主要为发音相近的音素，如将元音/ɪ/误识别为/iː/。相较于明显的发音错误，这类细微的纠音在实际教学活动中优先级较低。为了进一步降低虚警率，鼓励学习者大胆开口说英语，通过与有多年教学经验的教研们沟通，我们约定了对/ʌ/和/ɑː/、/s/和/θ/、词尾的/s/和/z/等发音相近的音素对纠音优先级相对较低。这样，虚警率进一步降低至 7%，不考虑此类发音错误，召回率也提升至 67%。

最终实现的发音检错功能如下图所示：

总结与展望

我们通过将端到端音素识别用于发音检错，避免了传统的强制对齐方案训练流程复杂、时间边界不准、无法处理音素增读漏读的问题。并通过基于 attention 的文本信息融合、发音错误数据增强，取得了显著的检错效果提升。最后，结合实际教学需求，降低发音相近音素的纠音的优先级，进一步优化了实际应用场景下的效果体验。未来可能的优化方向包括：

标注实际应用场景下的真实发音数据；
通过 multi-task 知识迁移的方式，引入发音属性识别等信息，提升模型的音素区分能力；
基于音频和视频的多模态特征融合方案，可以在很大程度上尤其是在噪声环境下提升检错准确率。参考文献

[1] Zhao G, Sonsaat S, Silpachai A, et al. L2-ARCTIC: A non-native English speech corpus[C]//INTERSPEECH. 2018: 2783-2787.

[2] Prabhavalkar R, Rao K, Sainath T N, et al. A Comparison of Sequence-to-Sequence Models for Speech Recognition[C]//Interspeech. 2017: 939-943.

[3] Fu K, Lin J, Ke D, et al. A Full Text-Dependent End to End Mispronunciation Detection and Diagnosis with Easy Data Augmentation Techniques[J]. arXiv preprint arXiv:2104.08428, 2021.

发布

暂无评论

天翼云新一代V5云主机，Kvm之生，Xen之死！

天翼云开发者社区

把一整个生态圈藏进大沙漠看蒙牛如何在每一滴奶中藏进玄机

科技新消息

洞见科技荣获隐私计算新势力奖！创始人姚明出席华夏时报「2022智能数据论坛」

洞见科技

隐私计算数据智能

大数据培训程序员面试屡次碰壁怎么办

@零度

面试大数据开发

蒙牛2021年报：数智化大脑为乳业插上腾飞翅膀

科技新消息

制造业企业数据平台建设最佳实践分享

华为云开发者联盟

数字化转型数据平台制造业华为工业云平台数据应用

爆款国民冰淇淋原来是这样“凝冻”出来的

科技新消息

易观分析：海外业务亮眼，研发+IP运营助力中手游持续增长

易观分析

IP 中手游

压测做的不对，等于白做

基调听云

性能测试压测全链路压测

墨天轮访谈 | 腾讯张铭：带你揭秘王者荣耀背后的游戏数据库 TcaplusDB

墨天轮

数据库 TcaplusDB 国产数据库

再论ORACLE上云通用技术方案

天翼云开发者社区

专属云资源包计算规格探秘

天翼云开发者社区

手绘模型图带你认识Kafka服务端网络模型

华为云开发者联盟

kafka 多线程网络模型 Reactor多线程 Processor

整机生产制造头部厂商雷神科技加入龙蜥社区

OpenAnolis小助手

Linux 开源整机

天翼云分布式缓存服务（Redis）的几个核心概念

天翼云开发者社区

芝士就是力量！蒙牛2021年报笑出大大的CHEESE

科技新消息

【课程汇总】OpenHarmony全场景Demo数字管家系列课（附链接）

OpenHarmony开发者

OpenHarmony 数字管家

程序员不好招了吗，web前端培训应该怎么学习

@零度

前端开发

实施知识管理过程中存在的问题（内附解决方案）

小炮

知识管理

打造中国优质奶源基地筑牢高质量发展基石

科技新消息

java培训浅谈程序员怎么避免面试过程中碰壁

@零度

面试 JAVA开发

人工智能融合赋能平台，赋能智慧城市智能化升级

脑极体

夯实领军者地位奶酪业务协同发展领先赛道

科技新消息

Linux 管道操作符详解

CRMEB

领域驱动设计入门与实践[下]

LigaAI

团队管理 DDD 领域驱动设计思想 LigaAI

61%！产品+渠道创新蒙牛冰淇淋业绩收录有史高增长

科技新消息

GPU时代来临！

Finovy Cloud

人工智能 gpu GPU服务器

PolarDB-X 正式发布2.1.0版本，Paxos 重磅开源

阿里云数据库开源

数据库阿里云开源分布式 PolarDB-X

每周更新 | Verilog测试用例及波形展示图功能上线

ShowMeBug

天翼云分布式缓存服务（Redis）的应用场景（干货）

天翼云开发者社区

国内20家优秀一线低代码平台推荐，经典收藏

J2PaaS低代码平台

低代码开发工具低代码平台 J2PaaS低代码

促进软件开发及相关领域知识与创新的传播
关于我们
我要投稿
合作伙伴
加入我们
关注我们
联系我们
内容投稿：editors@geekbang.com
业务合作：hezuo@geekbang.com
反馈投诉：feedback@geekbang.com
加入我们：zhaopin@geekbang.com
联系电话：010-64738142
地址：北京市朝阳区望京北路9号2幢7层A701
InfoQ 近期会议
上海 · QCon 全球软件开发大会 2024.10.18-19
北京 · AICon 全球人工智能开发与应用大会 2024.12.13-14
全球 InfoQ
InfoQ En
InfoQ Jp
InfoQ Fr
InfoQ Br

京公网安备 11010502039052号 | 产品资质

玻璃钢生产厂家河南学校校园玻璃钢雕塑厂家玻璃钢卡通公仔雕塑厂新乡玻璃钢卡通雕塑河南房地产水景玻璃钢卡通雕塑邵阳玻璃钢马雕塑景观玻璃钢雕塑施工哪家好广州水果玻璃钢雕塑蓬江玻璃钢雕塑双鸭山玻璃钢雕塑厂玻璃钢埃及雕塑厂家深圳大型商场美陈销售悬挂商场美陈任丘市玻璃钢雕塑上饶欧式玻璃钢雕塑哪家便宜杭州商场美陈布置安装制作云南玻璃钢园林雕塑澳门玻璃钢青椒雕塑合肥商场中庭美陈北京市玻璃钢广场雕塑广安玻璃钢花盆花器潮州玻璃钢人物雕塑芜湖十一商场美陈玻璃钢狼雕塑湖南玻璃钢仿真水果雕塑厂家南昌玻璃钢人物雕塑定制江苏商城艺术玻璃钢雕塑价格镜面玻璃钢景观雕塑小品无锡玻璃钢雕塑报价品牌企业黄浦区玻璃钢雕塑哪家好呈贡玻璃钢雕塑精准推荐香港通过《维护国家安全条例》两大学生合买彩票中奖一人不认账让美丽中国“从细节出发”19岁小伙救下5人后溺亡多方发声单亲妈妈陷入热恋 14岁儿子报警汪小菲曝离婚始末遭遇山火的松茸之乡雅江山火三名扑火人员牺牲系谣言何赛飞追着代拍打萧美琴窜访捷克外交部回应卫健委通报少年有偿捐血浆16次猝死手机成瘾是影响睡眠质量重要因素高校汽车撞人致3死16伤司机系学生 315晚会后胖东来又人满为患了小米汽车超级工厂正式揭幕中国拥有亿元资产的家庭达13.3万户周杰伦一审败诉网易男孩8年未见母亲被告知被遗忘许家印被限制高消费饲养员用铁锨驱打大熊猫被辞退男子被猫抓伤后确诊“猫抓病”特朗普无法缴纳4.54亿美元罚金倪萍分享减重40斤方法联合利华开始重组张家界的山上“长”满了韩国人？张立群任西安交通大学校长杨倩无缘巴黎奥运 “重生之我在北大当嫡校长”黑马情侣提车了专访95后高颜值猪保姆考生莫言也上北大硕士复试名单了网友洛杉矶偶遇贾玲专家建议不必谈骨泥色变沉迷短剧的人就像掉进了杀猪盘奥巴马现身唐宁街黑色着装引猜测七年后宇文玥被薅头发捞上岸事业单位女子向同事水杯投不明物质凯特王妃现身！外出购物视频曝光河南驻马店通报西平中学跳楼事件王树国卸任西安交大校长师生送别恒大被罚41.75亿到底怎么缴男子被流浪猫绊倒投喂者赔24万房客欠租失踪房东直发愁西双版纳热带植物园回应蜉蝣大爆发钱人豪晒法院裁定实锤抄袭外国人感慨凌晨的中国很安全胖东来员工每周单休无小长假白宫：哈马斯三号人物被杀测试车高速逃费小米：已补缴老人退休金被冒领16年金额超20万

玻璃钢生产厂家 XML地图 TXT地图虚拟主机 SEO 网站制作网站优化

创作场景

端到端英语发音检错在作业帮的应用

背景与需求

行业现状

作业帮的实践

端到端模型选型

基于 attention 的文本信息融合

发音错误数据增强

确定功能边界

总结与展望

评论

更多内容推荐

Facebook 新成果：用于语音识别、生成和压缩的自监督表征学习的 HuBERT

20｜提示语工程（二）：LLM 的护卫舰队有哪些？

明略科技 Blockformer 语音识别模型在 AISHELL-1 测试集上取得 SOTA 结果

全面解析腾讯会议的视频前处理算法

腾讯会议如何保证语音质量？音频信号处理中有这些秘籍！

DurIAN: 基于时序注意力神经网络的语音合成系统 | 论文解读

荔枝音质高保真的降噪技术实践与研究

19｜提示语工程（一）：为什么说提示语引擎是“智能体本体”？

小数据量语音合成技术在作业帮的应用

16｜ChatGPT：是什么让 LLM 走向舞台中央？

12｜博观约取：重走 NLP 领域预训练模型的长征路

语音评测技术在古文背诵中的应用

夺得 ICDAR OCR 竞赛世界第一，360 数科文本识别技术分享

14｜变形金刚：Transformer 是如何让模型变大的？

13｜厚积薄发：如何让模型更好地理解人类语言？

爱奇艺多语言台词机器翻译技术实践

科大讯飞在 AI 源头技术上的突破，实现系统性创新

云视频会议背后的语音核心技术揭秘：如何进行语音质量评估？

Interspeech2020 腾讯天籁论文系列解读

语音信号处理 4：汉语中语音的分类及韵律特性

推荐阅读

26｜DALL-E 3 技术探秘（一）：用 OpenAI 的方式搞数据

它只是一次添加一个词

ZEGO 即构场景化 AI 降噪技术解析

27｜DALL-E 3 技术探秘（二）：从 unCLIP 到缝合怪方案

谷歌语音人工智能 AudioPaLM，语音传输瞬间翻译

作业帮中英文混合语音识别系统研发实践

改变游戏规则，微软推出 TTS 语言模型 VALL-E

电子书

中国开发者画像洞察研究报告 2024

大厂实战PPT下载

天翼云新一代V5云主机，Kvm之生，Xen之死！

把一整个生态圈藏进大沙漠 看蒙牛如何在每一滴奶中藏进玄机

洞见科技荣获隐私计算新势力奖！创始人姚明出席华夏时报「2022智能数据论坛」

大数据培训程序员面试屡次碰壁怎么办

蒙牛2021年报：数智化大脑为乳业插上腾飞翅膀

制造业企业数据平台建设最佳实践分享

爆款国民冰淇淋原来是这样“凝冻”出来的

易观分析：海外业务亮眼，研发+IP运营助力中手游持续增长

压测做的不对，等于白做

墨天轮访谈 | 腾讯张铭：带你揭秘王者荣耀背后的游戏数据库 TcaplusDB

再论ORACLE上云通用技术方案

专属云资源包计算规格探秘

手绘模型图带你认识Kafka服务端网络模型

整机生产制造头部厂商雷神科技加入龙蜥社区

天翼云分布式缓存服务（Redis）的几个核心概念

芝士就是力量！蒙牛2021年报笑出大大的CHEESE

【课程汇总】OpenHarmony全场景Demo数字管家系列课（附链接）

程序员不好招了吗，web前端培训应该怎么学习

实施知识管理过程中存在的问题（内附解决方案）

打造中国优质奶源基地 筑牢高质量发展基石

java培训浅谈程序员怎么避免面试过程中碰壁

人工智能融合赋能平台，赋能智慧城市智能化升级

夯实领军者地位 奶酪业务协同发展领先赛道

Linux 管道操作符详解

领域驱动设计入门与实践[下]

61%！产品+渠道创新 蒙牛冰淇淋业绩收录有史高增长

GPU时代来临！

PolarDB-X 正式发布2.1.0版本，Paxos 重磅开源

每周更新 | Verilog测试用例及波形展示图功能上线

天翼云分布式缓存服务（Redis）的应用场景（干货）

国内20家优秀一线低代码平台推荐，经典收藏

把一整个生态圈藏进大沙漠看蒙牛如何在每一滴奶中藏进玄机

打造中国优质奶源基地筑牢高质量发展基石

夯实领军者地位奶酪业务协同发展领先赛道

61%！产品+渠道创新蒙牛冰淇淋业绩收录有史高增长