语音识别预训练模型Hidden-Unit BERT (HuBERT)

150 篇文章 22 订阅
订阅专栏
33 篇文章 4 订阅
订阅专栏
15 篇文章 2 订阅
订阅专栏

1.简介

本文根据2021年《HuBERT: Self-Supervised Speech Representation Learning by Masked Prediction of Hidden Units》翻译总结的。

自监督语音学习面临3个挑战,1)在每句话中有多个声音单元;2)在预训练阶段没有输入声音单元对应的词典;3)声音单元长度可变,没有明确的分割。为了出来这些问题,我们提出了Hidden-Unit BERT (HuBERT) 。

HuBERT的一个主要成分是只在mask的区域应用预测loss(如下图的3个mask),这会迫使模型基于连续的输入去学习声学和语言的组合模型。即采用了一个更加直接的预测loss将声学单元(如MFCC)与mask预测部分区分开

HuBERT效果超过了wav2vec 2.0。

在这里插入图片描述

2.方法

2.1.Hidden units

在这里插入图片描述

2.2.Mask预测

在这里插入图片描述

2.3.k-means模型聚合

在这里插入图片描述

2.4.迭代精炼

我期望一个预训练模型提供更好的表示,而不是原始的声学特征,如MFCC。所以基于隐变量训练一个离散隐模型来重新表示。

如BASE模型,第一个迭代是训练了250k步,第二个迭代是基于第一个迭代模型的第6个transformer层的输出而生成的label继续训练400k步。

2.5.实施

类似采用wav2vec 2.0架构,一个卷积wafeform encoder,一个BERTencoder,一个projection layer 和a code embedding layer。如下所示:
在这里插入图片描述

基于模型,具体p的公式如下:

在这里插入图片描述

在HuBERT预训练完后,我们使用e connectionist temporal classifification (CTC) loss 来进行ASR 微调(fine-tuning),其中卷积encoder 冻住,不参与微调。projection layer被移除,用一个随机初始化的softmax 层代替。CTC 目标词汇包括26个英语字母、a space token, an apostrophe, and a special CTC blank symbol。

2.6 Supervised Fine-Tuning and Decoding

我们使用 wav2letter++ beam search decoder wrapped
in Fairseq for language model-fused decoding。
在这里插入图片描述

3.结果

如下表所示,HUBERT好于wav2vec 2.0。

在这里插入图片描述

中文语音预训练模型:Wav2vec 2.0、HuBERT
u013250861的博客
06-16 4484
腾讯游戏知几AI团队与西工大ASLP组联合发布了基于 WenetSpeech 1 万小时数据训练的中文版 Wav2vec 2.0 和 HuBERT 模型。Wav2vec 2.0 [1],HuBERT [2] 和 WavLM [3] 等语音预训练模型,通过在多达上万小时的无标注语音数据(如 Libri-light )上的自监督学习,显著提升了自动语音识别(Automatic Speech Recognition, ASR),语音合成(Text-to-speech, TTS)和语音转换(Voice Conver
语音预训练模型wav2vec(论文复现)
wei_shuo的博客
07-31 854
语音预训练模型wav2vec(论文复现)
开源项目 `hubert` 使用教程
gitblog_01119的博客
08-16 478
开源项目 hubert 使用教程 hubertHuBERT content encoders for: A Comparison of Discrete and Soft Speech Units for Improved Voice Conversion项目地址:https://gitcode.com/gh_mirrors/hu/hubert 1. 项目的目录结构及介绍 hubert/ ├──...
探索语音转换新境界:HuBERT
gitblog_00216的博客
08-16 501
探索语音转换新境界:HuBERT hubertHuBERT content encoders for: A Comparison of Discrete and Soft Speech Units for Improved Voice Conversion项目地址:https://gitcode.com/gh_mirrors/hu/hubert 在人工智能领域,尤其是在自然语言处理和语音合成中,...
HuBERT 项目安装和配置指南
最新发布
gitblog_07562的博客
09-13 388
HuBERT 项目安装和配置指南 hubert HuBERT content encoders for: A Comparison of Discrete and Soft Speech Units for Improved Voice Conversion ...
【GPT-SOVITS-06】特征工程-HuBert原理
Fred's Note
03-17 3602
GPT-SOVITS 源码解析
Audio-预训练模型(一):概述
u013250861的博客
10-28 1667
专注于语音识别任务,一步步将预训练模型从特征提取器发展到带有离散化模块的端到端的自监督训练模型,一步步地挑战更为困难的语音识别数据集,使用更少的有标注数据或者完全使用无标注的数据,取得更好的结果。模型,通过加入句子混杂增强和句子之间的对比学习有效提升模型在speaker相关任务上的结果。模型,通过让中间层也去预测target使ASR结果明显提升(与data2vec比肩的结果),针对Speaker相关的任务提出了。",把预训练模型做的更大更强,用1百万小时的youtube语音数据训练了8B参数的。
Python-在终端设备上实现语音识别的TensorFlow预训练模型
08-12
在终端设备上实现语音识别的TensorFlow预训练模型
语言模型的预训练
weixin_40952784的博客
05-15 417
参考自:https://zhuanlan.zhihu.com/p/49271699 ELMO:得到WE后过BiLSTM调整WE的表达 优点:一词多义 缺点:LSTM特征提取不好 GPT:预训练+调参 优点:采用transformer来提取特征 缺点:变成双向的话会更好吧 Bert:双向的transformer 优点;一点是特征抽取器采用Transformer;第二点是预训练的...
Wav2Vec & HuBert &WavLM 自监督语音大模型
林宋的搬砖流水账
01-16 7656
自监督预训练语言模型,wav2vec, wav2vec2.0,HUBert
WAV2VEC:语音识别非监督预训练模型
zephyr_wang的博客
11-12 951
WAV2VEC:语音识别非监督预训练模型
人工智能语音识别训练好的模型.rar
04-22
人工智能语音识别训练好的模型.rar
人工智能语音识别训练好的模型.zip
04-16
人工智能语音识别训练好的模型.zip
人工智能-项目实践-预训练-Bert预训练模型fine-tune计算文本相似度.zip
01-06
Bert预训练模型fine-tune计算文本相似度 运行 ./sentence_similarity_Bert/examples/run_classifier_modify2 进行fine-tune 训练数据集为蚂蚁金服文本匹配的数据 在chinese_data文件夹内 运行run_classifier_...
基于bert的幽默识别预训练模型
07-04
幽默是一种特殊的语言表达方式,在日常生活中扮演着化解尴尬、活跃气氛、促进交流的重要角色。而幽默计算是近年来自然语言处理领域的新兴热点之一,其主要...本资源是基于基于bert的幽默识别模型,请结合我的博客使用!
官方bert中文预训练模型
08-17
标题中的“官方bert中文预训练模型”指的是BERT(Bidirectional Encoder Representations from Transformers)的中文版本,这是一个由Google AI Language团队开发的深度学习模型BERT是自然语言处理领域的一个里程...
bert-base-uncased 预训练模型
01-12
来自 https://huggingface.co/bert-base-uncased/tree/main
预训练模型--BERT
泓源的博客
01-03 981
前言 上一篇文章中讲到了GPT,也简单讲到了GPT和BERT的区别,这里先贴回来温习一下: GPT和BERT之间的区别是:GPT选择了transformer中decoder阶段结构作为预训练结构;而BERT选择了transformer中encoder阶段结构作为预训练结构。 这样首先需要知道encoder结构和decoder结构之间的利弊: encoder decoder 双向网络 单向网络 没有天然的预测目标(Bert自己构造mask) 有天然的预测目标(天然mask+预测下一个词)
探秘HuBERT:实现无缝语音转换的利器
gitblog_00020的博客
06-09 1128
探秘HuBERT:实现无缝语音转换的利器 项目地址:https://gitcode.com/gh_mirrors/hu/hubert 在语音处理领域,HuBERT(HarmoNious Unsupervised Representation Learning for Speech)是一个备受关注的开源项目。它以其高效无监督的学习方式和出色的性能,为语音识别和转化带来了全新的可能性。本文将带你深入了...
Hugging Face上如何下载预训练的BERT-wwm模型
05-12
首先,您需要安装Hugging Face的transformers库。可以通过以下命令在终端上安装: ``` pip install transformers ``` 然后,您可以通过以下方式下载预训练的BERT-wwm模型: ```python from transformers import BertForMaskedLM, BertTokenizer model_name = 'hfl/chinese-bert-wwm-ext' model = BertForMaskedLM.from_pretrained(model_name) tokenizer = BertTokenizer.from_pretrained(model_name) ``` 这将下载预训练的BERT-wwm模型和相应的tokenizer,并将其加载到您的Python环境中。请注意,下载模型文件可能需要一些时间,具体取决于您的网络速度。
写文章

热门文章

  • ILSVRC-ImageNet历年竞赛冠军 31757
  • 各种生成模型:VAE、GAN、flow、DDPM、autoregressive models 26236
  • Grafana alert预警+钉钉通知 20314
  • 神经网络之父Hinton介绍及其论文介绍 19581
  • 图像预处理方法总结 17429

分类专栏

  • 硬件开发 8篇
  • 机器人 12篇
  • 人工智能 150篇
  • 对抗训练 2篇
  • GAN 8篇
  • 图像处理 35篇
  • python 22篇
  • 多模态 7篇
  • 语音识别 15篇
  • 数学 22篇
  • 笔记 16篇
  • Tensorflow 9篇
  • 深度学习 17篇
  • transformer 33篇
  • 算法 38篇
  • 工作生活 1篇
  • 机器学习 30篇
  • NLP 51篇
  • 语音合成 5篇
  • 神经网络 24篇
  • 迁移学习 3篇
  • Attention 6篇
  • 不平衡数据 2篇
  • 特征工程 6篇
  • 物体识别 5篇
  • 文本识别 9篇
  • GPU 2篇
  • Hinton 5篇
  • 玻尔兹曼机 3篇
  • 半监督学习 3篇
  • 知识跟踪 3篇
  • 医学人工智能 2篇
  • 强化学习 2篇
  • OCR 2篇
  • java 3篇

最新评论

  • timm(图像Imagenet预训练模型库)

    于是我们相爱: RuntimeError: Unknown model (pretrain_mae_base_patch16_224)

  • ILSVRC-ImageNet历年竞赛冠军

    Kearney form An idea: 10~11的冠军呢?

  • SAKT:self attentive knowledge tracing知识跟踪模型

    m0_57244172: 请问SAKT模型在github上的地址可以发下吗

  • 自己制作智能语音机器人(基于jetson nano)

    xujingloveyes: 请问解决了在nano上离线语音合成吗

  • ILSVRC-ImageNet历年竞赛冠军

    莓莓不加糖: AN ANALYSIS OF DEEP NEURAL NETWORK MODELS FOR PRACTICAL APPLICATIONS

大家在看

  • linux—基础命令及相关知识
  • 卷积编码器通过打孔(Puncturing)来修改码率
  • 约束长度、状态数以及清零过程背后的原理

最新文章

  • 轮腿机器人的PID控制
  • 轮足机器人硬件总结
  • 人形机器人汇总
2023年42篇
2022年75篇
2021年72篇
2020年90篇
2019年12篇

目录

目录

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43元 前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值

玻璃钢生产厂家设计快题 节日商场美陈户外景观玻璃钢雕塑定制辽源玻璃钢雕塑定制价格商场外大美陈宁波户外玻璃钢雕塑供应商鼓楼美陈商场布置佳木斯小区玻璃钢雕塑生产厂家淮南玻璃钢花盆制作威海玻璃钢雕塑设计商场植物美陈方案福州玻璃钢海豚雕塑定制三亚玻璃钢雕塑香蕉玻璃钢雕塑选择瑞鑫阳玻璃钢白银玻璃钢卡通雕塑设计广州美院大型玻璃钢雕塑梧州玻璃钢卡通雕塑规格南阳玻璃钢酒店人物雕塑葫芦岛玻璃钢花盆生产厂家丽水多彩玻璃钢雕塑邵阳玻璃钢马雕塑郑州玻璃钢雕塑雕刻加工中庭商场美陈销售企业莱芜做玻璃钢雕塑的达州玻璃钢海豚雕塑玻璃钢雕塑业务员好干嘛五华区玻璃钢雕塑设计公司哪里有沈阳玻璃钢名人雕塑浙江开业商场美陈大同小品系列玻璃钢雕塑定做城市玻璃钢雕塑厂家电话香港通过《维护国家安全条例》两大学生合买彩票中奖一人不认账让美丽中国“从细节出发”19岁小伙救下5人后溺亡 多方发声单亲妈妈陷入热恋 14岁儿子报警汪小菲曝离婚始末遭遇山火的松茸之乡雅江山火三名扑火人员牺牲系谣言何赛飞追着代拍打萧美琴窜访捷克 外交部回应卫健委通报少年有偿捐血浆16次猝死手机成瘾是影响睡眠质量重要因素高校汽车撞人致3死16伤 司机系学生315晚会后胖东来又人满为患了小米汽车超级工厂正式揭幕中国拥有亿元资产的家庭达13.3万户周杰伦一审败诉网易男孩8年未见母亲被告知被遗忘许家印被限制高消费饲养员用铁锨驱打大熊猫被辞退男子被猫抓伤后确诊“猫抓病”特朗普无法缴纳4.54亿美元罚金倪萍分享减重40斤方法联合利华开始重组张家界的山上“长”满了韩国人?张立群任西安交通大学校长杨倩无缘巴黎奥运“重生之我在北大当嫡校长”黑马情侣提车了专访95后高颜值猪保姆考生莫言也上北大硕士复试名单了网友洛杉矶偶遇贾玲专家建议不必谈骨泥色变沉迷短剧的人就像掉进了杀猪盘奥巴马现身唐宁街 黑色着装引猜测七年后宇文玥被薅头发捞上岸事业单位女子向同事水杯投不明物质凯特王妃现身!外出购物视频曝光河南驻马店通报西平中学跳楼事件王树国卸任西安交大校长 师生送别恒大被罚41.75亿到底怎么缴男子被流浪猫绊倒 投喂者赔24万房客欠租失踪 房东直发愁西双版纳热带植物园回应蜉蝣大爆发钱人豪晒法院裁定实锤抄袭外国人感慨凌晨的中国很安全胖东来员工每周单休无小长假白宫:哈马斯三号人物被杀测试车高速逃费 小米:已补缴老人退休金被冒领16年 金额超20万

玻璃钢生产厂家 XML地图 TXT地图 虚拟主机 SEO 网站制作 网站优化