写点什么

端到端英语发音检错在作业帮的应用

  • 作业帮技术团队
  • 刘燕

  • 2022-09-12
    北京
  • 本文字数:2815 字

    阅读完需:约 9 分钟

端到端英语发音检错在作业帮的应用

文 / 杨帆,王强强

背景与需求

目前,英语是世界通用语言,掌握了英语就有了与世界沟通、交流的工具。但是,中国普遍存在的“哑巴英语”、“中式英语”、发音不准等现象,极大地影响了英语学习者的听说能力,以及在实际生活中对英语的使用。近年来,随着素质教育改革,英语口语考试被逐步纳入中高考,学生们提升口语水平的需求也日益凸显。然而,口语学习需要大量的练习、及时的反馈和针对性的指导,但课上、课后都很难有一对一的教学机会;老师通常需要花费数倍于批改书面试卷的时间,才能完整地听完学生的语音并给出全面的反馈。采用计算机辅助语言学习技术,通过检测英语学习者的发音是否正确、错误的具体原因,可以及时、高效、便捷地提供针对性的发音指导,且不受传统面授的时空限制。

行业现状

现有的语音评测应用主要是对学习者的发音进行打分,但是很少反馈失分的具体原因并进行针对性地指导,对学习者改善发音助力有限。近年来,音素级发音检错技术在研究领域获得了越来越多的关注,可以检测学习者发音中多读、漏读和错读的音素,还可以通过根据发音错误诊断推送相应的文字及视频发音教程,给学习者提供针对性的专家级发音指导意见。依托作业帮专业的英语教师团队、丰富的口语练习题库、庞大的下沉市场用户规模、海量的中国学生口语练习数据,英语发音检错技术可以在课上、课后为所有英语学习者提供个性化、精准化的辅导,实现科技助力因材施教、教育普惠、“让优质教育触手可及”。


传统的语音评测主要通过强制对齐(Forced Alignment)获得朗读文本中各个音素在音频中的起止时间,然后在各个音素片段内计算目标发音音素与其它音素的概率比值,即 GOP(Goodness of pronunciation)分数,最后通过设定阈值等方式判断各个音素的发音是否正确,或者综合各音素的 GOP 分数回归得到单词、句子的评分。


这类方案主要存在以下几点问题:


  • 发音错误时强制对齐得到的时间边界可能与实际发音音素序列的时间边界不一致,导致计算的实际发音的概率值偏低,无法提供准确的检错与诊断;若在对齐网络中扩展常见的发音错误,需要专家知识并且很难覆盖实际应用中的各种可能;

  • 强制对齐方案无法准确地处理增读、漏读音素的情况,尤其是增读;

  • GOP 计算对时间边界比较敏感,但是很难获得含准确的时间边界标注的大批量语料库;

  • 传统的帧级识别模型,不论是 GMM-HMM 还是神经网络模型,训练流程都较为繁琐。近年来,端到端模型也被广泛应用于语音识别领域,并达到了和传统方法可比的性能,大大简化了模型的训练流程。在发音检错场景下,采用端到端音素识别可以直接识别学习者的实际发音音素序列,然后,通过最短编辑距离与目标发音音素序列进行匹配、对比,得到正确朗读、增读、漏读、错读音素的检错与诊断结果。相对于传统的强制对齐方案,该方案不需要精确的时间边界,并且能够很方便地检测增读、漏读音素的情况。

作业帮的实践

为了便于后续讨论,首先介绍我们采用的数据集和评价指标。评价发音检错与诊断任务最常用的数据集是 L2-ARCTIC[1]。L2-ARCTIC 是由第一语言分别为印地语、韩语、普通话、西班牙语、阿拉伯语和越南语的非英语母语人士录制的英语句子朗读数据,包含音频、提示文本和标注,标注了音频中增读、漏读和错读的音素。发音检错与诊断任务的评价指标主要有:


  • 虚警率:实际发音正确的音素中,被检测为发音错误的比例;

  • 召回率:实际发音错误的音素中,被检测为发音错误的比例;

  • 诊断正确率:正确地判断为发音错误的音素中,识别为实际发音音素的比例。下面介绍端到端发音检错技术在作业帮落地实践过程中遇到的问题与解决方案。

端到端模型选型

目前主流的端到端语音识别技术有 CTC(Connectionist Temporal Classification)、基于 attention 的 encoder-decoder(AED)、RNN-T(Recurrent Neural Network Transducer)三类[2]。其中,CTC 基于条件独立性假设,即假设序列中的每个元素是互相独立的,而 AED 和 RNN-T 模型均采用自回归解码,即每一时刻的输出都依赖于之前的输出,隐式地学习了序列中的语言模型。虽然在语音识别任务上,相对于 CTC,AED 和 RNN-T 模型都有更好的效果,但是考虑到在发音检错任务中,学习者发音错误后的音素序列模式可能与常见的音素组合不一致,为了避免语言模型对发音错误召回的影响,我们首先验证了 CTC 模型的效果。

基于 attention 的文本信息融合

实验结果表明,仅采用 CTC 音素识别准确率较低,发音检错虚警率约为 21%,这在教学场景下是不可接受的。借鉴人进行发音评价的过程,在无文本参考的情况下转写实际发音音素序列较为困难,但是已知目标发音,判断实际发音与目标发音是否相近,这一任务就相对简单许多。同样的,将目标发音序列也作为模型输入,为模型提供额外的先验知识,可以降低模型学习的难度。


参考论文[3]中的实现,模型结构如下图所示:



发音错误数据增强

由于标注真实发音错误的音频需要专业人士耗费大量的时间精细地标注,较难大批量获取,因而模型训练集中绝大部分为发音正确的数据。为了增强模型的检错能力,避免原样输出参考音素序列,采用随机替换输入音素序列中的音素来模拟发音错误的情况。


优化后,虚警率由原来的 21%显著降低至 9%左右,同时,诊断正确率也由原来的 65%提升至 77%。但是,发音错误召回率仅有 57%。

确定功能边界

分析发现,高频虚警、高频未召回的音素对主要为发音相近的音素,如将元音/ɪ/误识别为/iː/。相较于明显的发音错误,这类细微的纠音在实际教学活动中优先级较低。为了进一步降低虚警率,鼓励学习者大胆开口说英语,通过与有多年教学经验的教研们沟通,我们约定了对/ʌ/和/ɑː/、/s/和/θ/、词尾的/s/和/z/等发音相近的音素对纠音优先级相对较低。这样,虚警率进一步降低至 7%,不考虑此类发音错误,召回率也提升至 67%。


最终实现的发音检错功能如下图所示:



总结与展望

我们通过将端到端音素识别用于发音检错,避免了传统的强制对齐方案训练流程复杂、时间边界不准、无法处理音素增读漏读的问题。并通过基于 attention 的文本信息融合、发音错误数据增强,取得了显著的检错效果提升。最后,结合实际教学需求,降低发音相近音素的纠音的优先级,进一步优化了实际应用场景下的效果体验。未来可能的优化方向包括:


  • 标注实际应用场景下的真实发音数据;

  • 通过 multi-task 知识迁移的方式,引入发音属性识别等信息,提升模型的音素区分能力;

  • 基于音频和视频的多模态特征融合方案,可以在很大程度上尤其是在噪声环境下提升检错准确率。参考文献


[1]  Zhao G, Sonsaat S, Silpachai A, et al. L2-ARCTIC: A non-native English speech corpus[C]//INTERSPEECH. 2018: 2783-2787.


[2]  Prabhavalkar R, Rao K, Sainath T N, et al. A Comparison of Sequence-to-Sequence Models for Speech Recognition[C]//Interspeech. 2017: 939-943.


[3]  Fu K, Lin J, Ke D, et al. A Full Text-Dependent End to End Mispronunciation Detection and Diagnosis with Easy Data Augmentation Techniques[J]. arXiv preprint arXiv:2104.08428, 2021.

2022-09-12 18:303080
用户头像
刘燕 InfoQ高级技术编辑

发布了 1112 篇内容, 共 525.0 次阅读, 收获喜欢 1973 次。

关注
AI&大模型 企业动态 机器学习/深度学习 性能优化 编程语言 技术选型 大前端 后端 管理/文化 AI&大模型

评论

发布
暂无评论
  • Facebook 新成果:用于语音识别、生成和压缩的自监督表征学习的 HuBERT

    HuBERT是一种学习自监督语音表征的新方法。HuBERT 与 SOTA 方法在语音识别、语音生成、语音压缩的语音表征学习方面相匹配,甚至超过了 SOTA。

    AI&大模型 最佳实践 Meta 性能优化 自然语言处理 工业
  • 20|提示语工程(二):LLM 的护卫舰队有哪些?

    这节课,我们将深入了解 ICL 的技术本质以及在大模型系统中的具体使用。

    2023-09-25

  • 明略科技 Blockformer 语音识别模型在 AISHELL-1 测试集上取得 SOTA 结果

    实验证明,Blockformer模型在中文普通话测试集(AISHELL-1)上,不使用语言模型的情况下实现了4.35%的CER,使用语言模型时达到了4.10%的CER。

    AI&大模型 最佳实践 企业动态 框架 汽车
  • 全面解析腾讯会议的视频前处理算法

    在视频通话中,视频前处理模块可以有效提升用户参与实时视频时的体验,并保护用户隐私,主要包括虚拟背景、美颜和视频降噪等。腾讯会议在视频前处理场景下,遇到哪些技术难点,如何进行优化?

    文化 & 方法 产品 最佳实践 方法论 性能优化 音视频(前端) 音视频(后端) 框架 汽车
  • 腾讯会议如何保证语音质量?音频信号处理中有这些秘籍!

    腾讯会议集结腾讯在AI、云计算、安全等方面的能力,全方位满足不同场景下的会议需求~

    架构 文化 & 方法 产品 方法论 最佳实践 腾讯 自然语言处理 汽车
  • DurIAN: 基于时序注意力神经网络的语音合成系统 | 论文解读

    作为人机语音交互的出口,语音合成的效果直接影响到人机交互到体验,一个高质量的、稳定的语音合成系统能够让机器更加地拟人化,使人机交互过程更加自然。

    AI&大模型 语言 & 开发 机器学习/深度学习 腾讯 架构 性能优化 框架
  • 荔枝音质高保真的降噪技术实践与研究

    当前直播行业愈发火热,用户通常处于不同的环境中,身边的键盘声,敲击声,空调声,喧哗声等噪声有时会对实时互动产生严重的干扰。

    移动 最佳实践 企业动态 性能优化 音视频(前端) 音视频(后端) 框架 汽车
  • 19|提示语工程(一):为什么说提示语引擎是“智能体本体”?

    今天我们的学习重点是熟悉提示语工程的主要概念和设计方法。

    2023-09-22

  • 小数据量语音合成技术在作业帮的应用

    随着深度学习的发展以及计算能力的不断提升,基于神经网络的语音合成方案逐步成为语音合成领域的研究热点。

    AI&大模型 最佳实践 企业动态 方法论 性能优化
  • 16|ChatGPT:是什么让 LLM 走向舞台中央?

    在今天的课程中,我将带你深入理解 OpenAI 是如何逐步“试”出ChatGPT 的,让你从这个经典的颠覆式创新中得到一些启示。

    2023-09-15

  • 12|博观约取:重走 NLP 领域预训练模型的长征路

    在这节课,我将带你解决自然语言处理领域所独有的一些问题,重走NLP“长征路”,看看 NLP 模型预训练技术在黎明前都经历过哪些考验。

    2023-09-06

  • 语音评测技术在古文背诵中的应用

    得益于计算机技术和语音评测技术的突飞猛进,计算机辅助语言学习(Computer Assisted Language Learning)技术应运而生,各种基于人工智能技术的口语评测方案相继落地。

    语言 & 开发 AI&大模型 企业动态 最佳实践 性能优化 操作系统 编程语言 框架 实时计算 字节跳动
  • 夺得 ICDAR OCR 竞赛世界第一,360 数科文本识别技术分享

    SROIE2019分为三个子任务:文本检测(要求在原图中给出文本区域的位置坐标)、文本识别 (在给定的文本区域裁剪图基础上,将其中的文字内容正确识别出来)、视觉信息抽取(抽取识别出的文本行中的关键信息,比如价格、日期等)。

    AI&大模型 编程语言 行业深度 最佳实践 机器学习/深度学习 语言处理 性能优化 企业动态
  • 14|变形金刚:Transformer 是如何让模型变大的?

    这节课,我就会带你啃下这个Transformer这个硬骨头。

    2023-09-11

  • 13|厚积薄发:如何让模型更好地理解人类语言?

    NLP的研究人员只是知道了外面世界的美好,却发现自己没有CV PTM 的命,为什么这么说呢?这节课我就带你一探究竟。

    2023-09-08

  • 爱奇艺多语言台词机器翻译技术实践

    2019年6月,爱奇艺正式推出服务全球用户的产品iQIYI App,并通过中台系统为iQIYI App提供全球化运营支持,由此开启了海外市场布局之路。

    AI&大模型 最佳实践 方法论 框架 自然语言处理 技术出海 字节跳动
  • 科大讯飞在 AI 源头技术上的突破,实现系统性创新

    科大讯飞高级副总裁胡国平在1024开发者节上介绍,如何在AI的技术层面进行源头技术突破和多技术融合,以此来推动实现系统性创新。

    服务革新 大数据 AI&大模型 AICon 架构 数据处理 语言处理 机器学习/深度学习 性能优化 框架 自然语言处理 实时计算 医疗
  • 云视频会议背后的语音核心技术揭秘:如何进行语音质量评估?

    自疫情发生以来,腾讯会议每天都在进行资源扩容,日均扩容主机接近1.5万台,用户活跃度攀升。在如此高并发流量的冲击下,腾讯会议如何保证语音通信清晰流畅?如何对语音质量进行评估?

    文化 & 方法 技术管理 产品 方法论 最佳实践 性能优化 音视频(前端) 音视频(后端) 操作系统 在离线混部 汽车
  • Interspeech2020 腾讯天籁论文系列解读

    本篇文章将解读腾讯多媒体实验室“腾讯天籁”团队在Interspeech2020上同佐治亚理工学院和中国科学技术大学等单位联合发表的3篇论文。Interspeech是语音技术领域的国际顶级会议,今年于10月25至29日在线上举行,根据主办方发布的数据,Interspeech2020共接收到有效论文投稿 2140 篇,其中 1022 篇被接收。

    文化 & 方法 最佳实践 方法论 腾讯 性能优化 框架 工业
  • 语音信号处理 4:汉语中语音的分类及韵律特性

    本文介绍了汉语中语音的分类:辅音、单元音、复元音、复鼻尾音以及汉语语音韵律特性的声学四大特征:音色、音高、音长、音强。

    2021-12-21

发现更多内容

天翼云新一代V5云主机,Kvm之生,Xen之死!

天翼云开发者社区

把一整个生态圈藏进大沙漠 看蒙牛如何在每一滴奶中藏进玄机

科技新消息

洞见科技荣获隐私计算新势力奖!创始人姚明出席华夏时报「2022智能数据论坛」

洞见科技

隐私计算 数据智能

大数据培训程序员面试屡次碰壁怎么办

@零度

面试 大数据开发

蒙牛2021年报:数智化大脑为乳业插上腾飞翅膀

科技新消息

制造业企业数据平台建设最佳实践分享

华为云开发者联盟

数字化转型 数据平台 制造业 华为工业云平台 数据应用

爆款国民冰淇淋原来是这样“凝冻”出来的

科技新消息

易观分析:海外业务亮眼,研发+IP运营助力中手游持续增长

易观分析

IP 中手游

压测做的不对,等于白做

基调听云

性能测试 压测 全链路压测

墨天轮访谈 | 腾讯张铭:带你揭秘王者荣耀背后的游戏数据库 TcaplusDB

墨天轮

数据库 TcaplusDB 国产数据库

再论ORACLE上云通用技术方案

天翼云开发者社区

专属云资源包计算规格探秘

天翼云开发者社区

手绘模型图带你认识Kafka服务端网络模型

华为云开发者联盟

kafka 多线程 网络模型 Reactor多线程 Processor

整机生产制造头部厂商雷神科技加入龙蜥社区

OpenAnolis小助手

Linux 开源 整机

天翼云分布式缓存服务(Redis)的几个核心概念

天翼云开发者社区

芝士就是力量!蒙牛2021年报笑出大大的CHEESE

科技新消息

【课程汇总】OpenHarmony全场景Demo数字管家系列课(附链接)

OpenHarmony开发者

OpenHarmony 数字管家

程序员不好招了吗,web前端培训应该怎么学习

@零度

前端开发

实施知识管理过程中存在的问题(内附解决方案)

小炮

知识管理

打造中国优质奶源基地 筑牢高质量发展基石

科技新消息

java培训浅谈程序员怎么避免面试过程中碰壁

@零度

面试 JAVA开发

人工智能融合赋能平台,赋能智慧城市智能化升级

脑极体

夯实领军者地位 奶酪业务协同发展领先赛道

科技新消息

Linux 管道操作符详解

CRMEB

领域驱动设计入门与实践[下]

LigaAI

团队管理 DDD 领域驱动设计思想 LigaAI

61%!产品+渠道创新 蒙牛冰淇淋业绩收录有史高增长

科技新消息

GPU时代来临!

Finovy Cloud

人工智能 gpu GPU服务器

PolarDB-X 正式发布2.1.0版本,Paxos 重磅开源

阿里云数据库开源

数据库 阿里云 开源 分布式 PolarDB-X

每周更新 | Verilog测试用例及波形展示图功能上线

ShowMeBug

天翼云分布式缓存服务(Redis)的应用场景(干货)

天翼云开发者社区

国内20家优秀一线低代码平台推荐,经典收藏

J2PaaS低代码平台

低代码 开发工具 低代码平台 J2PaaS低代码

端到端英语发音检错在作业帮的应用_AI&大模型_作业帮技术团队_InfoQ精选文章

玻璃钢生产厂家河南学校校园玻璃钢雕塑厂家玻璃钢卡通公仔雕塑厂新乡玻璃钢卡通雕塑河南房地产水景玻璃钢卡通雕塑邵阳玻璃钢马雕塑景观玻璃钢雕塑施工哪家好广州水果玻璃钢雕塑蓬江玻璃钢雕塑双鸭山玻璃钢雕塑厂玻璃钢埃及雕塑厂家深圳大型商场美陈销售悬挂商场美陈任丘市玻璃钢雕塑上饶欧式玻璃钢雕塑哪家便宜杭州商场美陈布置安装制作云南玻璃钢园林雕塑澳门玻璃钢青椒雕塑合肥商场中庭美陈北京市玻璃钢广场雕塑广安玻璃钢花盆花器潮州玻璃钢人物雕塑芜湖十一商场美陈玻璃钢狼雕塑湖南玻璃钢仿真水果雕塑厂家南昌玻璃钢人物雕塑定制江苏商城艺术玻璃钢雕塑价格镜面玻璃钢景观雕塑小品无锡玻璃钢雕塑报价品牌企业黄浦区玻璃钢雕塑哪家好呈贡玻璃钢雕塑精准推荐香港通过《维护国家安全条例》两大学生合买彩票中奖一人不认账让美丽中国“从细节出发”19岁小伙救下5人后溺亡 多方发声单亲妈妈陷入热恋 14岁儿子报警汪小菲曝离婚始末遭遇山火的松茸之乡雅江山火三名扑火人员牺牲系谣言何赛飞追着代拍打萧美琴窜访捷克 外交部回应卫健委通报少年有偿捐血浆16次猝死手机成瘾是影响睡眠质量重要因素高校汽车撞人致3死16伤 司机系学生315晚会后胖东来又人满为患了小米汽车超级工厂正式揭幕中国拥有亿元资产的家庭达13.3万户周杰伦一审败诉网易男孩8年未见母亲被告知被遗忘许家印被限制高消费饲养员用铁锨驱打大熊猫被辞退男子被猫抓伤后确诊“猫抓病”特朗普无法缴纳4.54亿美元罚金倪萍分享减重40斤方法联合利华开始重组张家界的山上“长”满了韩国人?张立群任西安交通大学校长杨倩无缘巴黎奥运“重生之我在北大当嫡校长”黑马情侣提车了专访95后高颜值猪保姆考生莫言也上北大硕士复试名单了网友洛杉矶偶遇贾玲专家建议不必谈骨泥色变沉迷短剧的人就像掉进了杀猪盘奥巴马现身唐宁街 黑色着装引猜测七年后宇文玥被薅头发捞上岸事业单位女子向同事水杯投不明物质凯特王妃现身!外出购物视频曝光河南驻马店通报西平中学跳楼事件王树国卸任西安交大校长 师生送别恒大被罚41.75亿到底怎么缴男子被流浪猫绊倒 投喂者赔24万房客欠租失踪 房东直发愁西双版纳热带植物园回应蜉蝣大爆发钱人豪晒法院裁定实锤抄袭外国人感慨凌晨的中国很安全胖东来员工每周单休无小长假白宫:哈马斯三号人物被杀测试车高速逃费 小米:已补缴老人退休金被冒领16年 金额超20万

玻璃钢生产厂家 XML地图 TXT地图 虚拟主机 SEO 网站制作 网站优化