学习笔记:基于GMM的语音转换(超详细)

11 篇文章 6 订阅
订阅专栏

基于高斯混合模型的语音转换(Voice conversion based on Gassian mixture model)

任务:
把说话人A的声音转换成说话人B的声音,保持语义信息不变。
实验部分: 男女声转换

概述

语音合成任务:

  • 语音转换(Voice Conversion, VC)
  • 文语转换(Text to Speech, TTS)
  • 语音生成(Voice Generation, VG)

今天主要学习语音转换VC任务。

语音转换

将语音经过预处理特征分析提取,然后特征配准,再训练一个转换模型,得到映射关系。
在这里插入图片描述

特征提取

红框部分,就是声码器的工作,分解信号,合成信号。
1.常用声码器:World,STRAIGHT, Griffin-Lim(具体原理搜我博客)
2. 如这次用到的STRAIGHT,将信号分解为三部分:
---- F0基频(浊音):反映声音语调,声音的整体调域。
---- 频谱(梅尔倒谱):主要特征,反映声音中的细节,大部分语义信息,说话人信息。
----非周期特征(清音):反映声音中非周期变化。

特征对齐

最常用的就是动态时间规则DWT算法(具体原理搜我博客)。

为了解决原语音与目标语音不等长问题,DWT算法根据相似性,建立了对应关系,形成源+目标特征对。

在这里插入图片描述

转换模型

基于GMM的特征映射
任务: 已知联合分布,求解条件分布。
原理: 假设原始语音x,目标语音y都是高斯的,所以联合起来也是高斯的。利用若干个高斯如m个,来拟合信号的分布。训练一个GMM模型,就能得到联合分布的均值,方差,就可以求条件分布。
在这里插入图片描述

具体来看y是如何求解的?
条件概率的求解
在这里插入图片描述
第一部分:已知输入信号x,该x属于每一个高斯成分m=1~M的概率。
在这里插入图片描述
第二部分:在这个第m个高斯下,已知x,能产生出y的概率。
在这里插入图片描述

其中,E和D都有闭式解:
在这里插入图片描述

这样,就能求解y:
在这里插入图片描述
可以看到,一个xt算一个yt,就是最小均方误差求解。这种转换算法效果差点,是因为没有考虑帧间信息。

转换模型改进

针对GMM转换存在问题,2007年Toda等人提出了改进方法。

在这里插入图片描述
主要改进了三部分:
1.引入动态成分
2.将最小均方误差估计,改为最大似然估计。评估一组数据,而不是单一一帧,充分考虑序列整体性。
3.引入全局方差(GV,Global Variance)。使最终转换结果与目标分布更加接近。

具体算法:
1.此时,x不再是一帧一帧,而是一组帧,T帧,y也是。
在这里插入图片描述
2.引入相邻帧之间的差值(动态成分):
在这里插入图片描述

Y和y之间关系为:Y=W*y
在这里插入图片描述

3.从而得到序列X和Y,还有联合特征的数据:
在这里插入图片描述

4.用最大似然估计求解:
在这里插入图片描述
要让上面式子值最大。
每部分含义和上面的类似。
第一部分:已知输入X的第t帧,该Xt属于每一个高斯成分m=1~M的概率。
在这里插入图片描述

第二部分:在这个第m个高斯下,已知X,能产生出Y的概率。
在这里插入图片描述

推导可得,当E和D等于如下值时,似然值最大:
在这里插入图片描述

为了计算简便,对似然函数进行了化简:
定了哪个m,只取概率最大的那个m。
在这里插入图片描述

最终解:
将Y=W*y代入,得:
在这里插入图片描述
这样就实现了序列级别的转换。

代码实现

用机器学习中常用的库函数sklearn。

import sklearn.mixture
from sklearn.mixture.gaussian.mixuture import _compute_precious_cholesky

在这里插入图片描述

E的具体函数如下:
在这里插入图片描述
D的函数,还有转换函数:
在这里插入图片描述

全局方差的实现:
对转换后的特征方差分布,进行调整,使其符合目标特征的方差分布。

在这里插入图片描述

算法实现

下面介绍具体的GMM语音转换。

  1. 数据准备:如男女声声音文件各70条。

  2. 特征提取:
    ---- F0基频(浊音):反映整个声音的整体调域。
    ----mcep 频谱(梅尔倒谱):主要特征,反映声音中的细节,大部分语义信息,说话人信息。
    ----ap非周期特征(清音):反映声音中非周期变化。
    ----npow:反映每帧能量,为了去静音帧。

  3. 统计信息计算:F0均值方差(单高斯转换),mcep的方差的均值和方差GV(GMM转换),利用GV进行特征修正(计算训练数据转换后的特征的方差的均值和方差)

  4. 特征配对:DWT

  5. 训GMM:训mcep特征对,训好的叫converter

  6. 特征修正:计算训练数据输入converter后,即转换后的特征方差的均值和方差

在这里插入图片描述

代码: GMM语音转换

工程目录包含:
config.py:相关参数设置
feature.py:特征提取
statistics.py:计算统计特征(GV)
jointfeature.py:特征配对
model.py:训练GMM,生成转换器,GV修正
main.py:主函数

比如config.py里:

config_all={
    "path_fea":"data/",
    "path_model":"model/",
    
    "Feature":{   
    "fs": 22050,
    "minf0":40,#搜索范围
    "maxf0":700, 
    "shiftms":4.988662131519274,#与fs对应
    "fftl":1024,
    # mecp 部分
    "dim_mcep":34, #
    "alpha" :0.455   
    },
    
    "GMM-mcep":{
    "sd":1, # mcep特征从第1维往后,不要第0维(DFT第一维表示均值,直流分量)
    "n_mix": 32, #混合成分
    "n_iter": 100, #训练迭代次数
    "cvtype": "mlpg", #转换方式最大似然
    },
   
    "GV_morph_coeff": 1.0 #GV修正系数
}

新建三个文件夹:
scp:存放训练数据描述文件
data:存放提取的特征
model:存放GMM模型,及f0和GV参数

下载数据集:
VCC2018公共数据集

深度解析:基于隐马尔科夫模型的语音转文字技术
开着房车去大理的数字游民
04-19 1449
语音识别,即自动语音转文字(Automatic Speech Recognition, ASR),是指将人类的语音信号转换为书面文本的过程。这涉及到对语音信号的自动分析和解释,以识别个体语音单元,即音素或单词。基于HMM的语音识别系统设计是一个复杂但充满挑战的过程。通过精心设计和优化,这样的系统能够在多种应用场景中提供准确的语音识别能力。HMM在语音转文字技术中发挥了重要作用,尤其是在声学模型的构建和解码过程中。然而,随着技术的发展,深度学习方法正在推动语音识别技术的进步。
GMM-HMM学习笔记
热门推荐
davidie的专栏
07-17 4万+
最近几天钻研了语音处理中的GMM-HMM模型,阅读了一些技术博客和学术论文,总算是对这个框架模型和其中的算法摸清了皮毛。在这里梳理一下思路,总结一下这几天学习的成果,也是为以后回顾时提高效率。 本文主要结合论文和博客资料来介绍我对GMM-HMM的理解,主要分为以下几个部分:第一个部分介绍语音识别总体框架,第二部分介绍典型的HMM结构和识别过程,第三部分介绍HMM的学习算法,最后补充介绍一些其他细
利用GMM算法实现指定的音色间转换
09-08
利用GMM算法实现Voice conversion,文件中有样例,实现的大体方法见博客,资源来自CodeOcean
6k Star!ChatTTS:开源领域最强的文本到语音转换(TTS)模型!
最新发布
lythinking的博客
05-30 1万+
chat T T S 是一款强大的对话式文本转语音模型。它有中英混读和多说话人的能力。chat T T S 不仅能够生成自然流畅的语音,还能控制[laugh]笑声啊[laugh],停顿啊[uv_break]语气词啊等副语言现象[uv_break]。这个韵律越了许多开源模型[uv_break]。请注意,chat T T S 的使用应遵守法律和伦理准则,避免滥用的安全风险。可以去谷歌colab上可快速运行这些。
11个值得关注的文本转语音AI大模型
新缸中之脑
05-07 6150
语言模型,尤其是大型语言模型(LLM),本质上已经成为人工智能的代表。然而,他们有一个隐秘的问题。到目前为止,人工智能社区主要在文本数据上训练人工智能,而忽略了音频数据。结果,我们阻碍了LLM,因为我们只教他们如何读/写,但从未教他们如何说/听。然而值得庆幸的是,一些公司正在改善这个问题。在我们追求更强大的LLM的道路上,我们一路上创造了一些令人难以置信的产品。其中一个产品是一系列令人难以置信的文本转语音 (TTS) 模型,每个模型都有其独特的优势。
语音转换之CycleGan-VC2:原理与实战
Barbara‘s Blog
12-30 4017
非平行语音转换CycleGAN
语音算法笔记(2)——从GMM-HMM到端对端
机器学习知识点整理
07-19 615
语音算法目标 给定语音特征,找到最有可能的文字序列,X:语音特征序列, W:文字序列,可用贝叶斯公式描述: 语音识别系统 输入语音信号,经过特征提取模块,得到整个系统输入的语音特征(也可以直接用waveform做算法的输入)。之后将特征输入decoder模块。decoder模块包含语言模型、声学模型和dictionary(发音词典),其中dictionary可以做为语言模型和声学模型的桥梁,当两者采用不同的建模单元时(词、声韵母),可以通过dictionary实现映射。 语言模型 对词序列本身
论文笔记语音情感识别(一)语音知识概览
weixin_30740295的博客
11-06 2646
语音信号(声音是什么) 声音是由物体振动产生的声波,是通过介质(空气或固体、液体)传播并能被人或动物听觉器官所感知的波动现象,最初发出振动的物体叫声源。声音语音消息)的基本模拟形式是一种称为语音信号的声学波。语音信号可以通过麦克风转化成电信号,转换语音波形图,如下图为消息"should we chase"的波形图。横坐标表示时间,纵坐标表示振幅。文本"should we chase"按照发音可...
kaldi中文资料_v0.4和thch30学习笔记.zip
09-16
《Kaldi中文资料_v0.4和THCH30学习笔记》是一份专注于语音识别技术的综合学习资源,尤其关注Kaldi工具的使用和THCH30数据集的学习。Kaldi是一个开源的、广泛应用于语音识别研究和开发的工具包,它提供了完整的框架,...
语音识别的概念和前世今生
简言
07-24 3472
最近在学习语音识别的一些知识,做了一些笔记,这篇文章讲讲语音识别的发展,以及相关的几个容易混淆的概念。 语音识别的背景 从物理声音转换为电信号,再通过模数转换转换为数据。一旦被数字化,就可适用若干种模型。语音识别的技术,就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的技术。 发展阶段 50年代:贝尔实验室开始语音识别的研究,主要研究基于简单的孤立词的语音识别系...
从零开始语音识别(3)--- GMM与EM算法
EdiosnMa的博客
09-16 785
高斯分布 多维的高斯分布形式 高斯分布的最大似然估计: 2.混合高斯分布GMM
Mfcc+GMM训练性别检测器模型,达到识别音频性别的效果
tian_jiangnan的博客
03-16 2269
首先我们要知道什么是mfcc特征? mfcc实际上就是获取音频的包络,包络是每个人声音的身份证,说白点,每个人的声道形状不一样,但是一个人的声道形状是固定的,这个就是身份证,发出来的声音自然有辨识度。所以我们要提取mfcc特征。 怎么提取mfcc? 预处理、分帧、加窗、快速傅里叶变换、逆傅里叶变换等 第一步、读取音频文件 a是.wav音频文件的路径 fs是音频的采样率,采样率是每秒音频...
男女声语音转换
Barbara‘s Blog
11-14 6901
基于GMM的男女声语音转换 男女声基本区别 男女声主要区别在于男女声基音频率(pitch frequency)的高低。一般女声的音调比男声的音调高,这种不同主要是反应在基音频率(pitch frequency)上。 一般女声的基音频率高于男声,常见的男女声基音频率大致分布范围如下图所示。提取基音频率比较常用的方法就是倒谱(cepstrum)。 声音信号具有短时平稳性,我们认为在10~50ms的数据长度上声音信号是平稳信号,所以可以分帧然后用平稳信号的处理方法进行处理。首先就是分帧操作(这里取40ms帧
AI-语音处理理论和应用-GMM
weixin_46414576的博客
05-18 312
学习目标 • 了解语音处理的基础知识及应用 • 掌握语音处理的基本步骤 • 掌握语音处理的主要技术 • 了解语音处理的难点与展望 传统语音模型 GMM 混合模型 • • 混合模型是一个统计模型,包含固定效应和随机效应两种效应的混合。在统计学中,混合模型是代表一个大群体中存在子群体的概率模型;混合模型不要求观测数据提供关于子分布的信息来计算观测数据在总体分布中的概率。 混合模型的定义 • 混合模型定义: y(i,t)=α+X(i,t)β+ε(i,t).y(i,t) = \alpha + X(i,t)\bet
声学模型GMM-HMM训练
huashui2009120的博客
10-28 5267
语音识别中声学模型是重中之重,常用到的声学模型是GMM-HMM,本文记录下声学模型训练的细节。下图是识别某个孤立字的GMM-HMM示意图。HMM部分是文字所占的音素以及其转移概率。语音帧通过已经训练好的GMM得属于某个音素的概率,如0.016。问题是这样的一个模型怎么训练呢?问题一、一段语音是怎么切割音素的,如’我‘的拼音是wo,我们按声韵母分开是:w o?         如果要训练w和o的分界...
多模型语音识别:实现精确的语音转文字
AI天才研究院
01-08 2070
1.背景介绍 语音识别技术,也被称为语音转文字(Speech-to-Text),是人工智能领域中的一个重要研究方向。它旨在将人类语音信号转换为文本信息,从而实现人机交互的自然语言处理。随着人工智能技术的发展,语音识别技术已经广泛应用于智能家居、智能汽车、语音助手等领域。 在过去的几年里,语音识别技术发生了巨大的变革。传统的语音识别系统主要采用Hidden Markov Model(隐马尔科夫模...
语音信号的同态处理、倒谱分析和Mel频率倒谱系数
披着鲨鱼皮的海盗
02-02 6728
1 同态处理 信号的同态处理也称同态滤波。大概步骤为: f(x,y)→ln→DFT→H(u,v)→(DFT)-1→exp→g(x,y) 虽然,一般用于图像处理。但是,博主将同态滤波用于语音信号的滤波。直接上程序吧 clc;clear %% filedir=[]; % 指定文件路径 filename='bluesky3.wav';
Voice Conversion 项目笔记(含从VCC 2016匿名比赛深挖的各前沿方法性能对比)
数据分析之路
09-01 1万+
voice conversion 基本架构: voice conversion 任务主要由两个步骤构成,特征提取与特征参数转换,对于这两个步骤,都有相应的常用的技术,这两个步骤中常用的技术各种排列组合,就产生了众多VC系统,以下做小汇总。 STEP1:Feature extraction     STEP2:Feature conv
写文章

热门文章

  • (超详细)语音信号处理之特征提取 30714
  • 声谱图,梅尔语谱,倒谱,梅尔倒谱系数(超详细) 29580
  • 梅尔倒谱系数MFCC由浅入深(超详细) 26325
  • 分贝,功率,功率谱,功率谱密度,信噪比 24043
  • 动态时间规整算法(DTW)通俗易懂 19997

分类专栏

  • 语音转换 11篇
  • 深度学习 22篇
  • 语音合成 13篇
  • MATLAB 3篇
  • 信号处理 46篇
  • 语音学&语言学 12篇
  • 语音基础知识 31篇
  • python基础 15篇
  • 语音识别 8篇
  • linux 4篇

最新评论

  • 语音转换之CycleGan-VC2:原理与实战

    BarbaraChow: 看看路径写的对不对,检查下该路径下有没该文件

  • 语音转换之CycleGan-VC2:原理与实战

    极光蓝: 博主您好想问下,FileNotFoundError: [Errno 2] No such file or directory:'C:/Users/ryh123/Desktop/model_checkpoint/_CycleGAN_CheckPoint',这个文件怎么生成的总是说我缺失这个文件。希望您能够解答谢谢。

  • 语音转换之CycleGan-VC2:原理与实战

    BarbaraChow: 博客上有写代码链接

  • MATLAB voicebox工具箱之基频估计

    语音编解码的小白: 图形是什么意思?解释一下?

  • 生成模型之扩散模型DDPM

    nanfangyuanyuan: 能不能都来做图像压缩呀

最新文章

  • 语音转换之CycleGAN-VC3:原理与实战
  • 语音转换之CycleGan-VC代码实战
  • 单因素方差分析
2024年15篇
2023年35篇
2022年30篇
2021年15篇
2020年24篇

目录

目录

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43元 前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值

玻璃钢生产厂家玻璃钢名人半身雕塑图片大全汉源玻璃钢雕塑厂玻璃钢雕塑厂家制作主题商场美陈供应商玻璃钢花盆哪个产品好用德州公园标识玻璃钢人物雕塑湖北公园玻璃钢雕塑图片西安制作玻璃钢雕塑漯河不锈钢镂空玻璃钢景观雕塑滁州创意玻璃钢雕塑定做价格张家界园林玻璃钢雕塑制作山东玻璃钢雕塑施工景观玻璃钢雕塑工业东丽玻璃钢雕塑工程江苏省玻璃钢雕塑报价菏泽玻璃钢仿铜雕塑佛山仿铜玻璃钢雕塑玻璃钢仿铜人物雕塑价格实惠河源透光玻璃钢雕塑摆件玻璃钢游乐场雕塑潍坊学校玻璃钢雕塑厂家金口河玻璃钢卡通雕塑溧水主题商场美陈大型商场中庭美陈商场鞋子美陈道具玻璃钢人物打水雕塑长安区商场美陈玻璃钢人像雕塑制作工艺流程济宁动物玻璃钢雕塑厂家桥北商场大型美陈香港通过《维护国家安全条例》两大学生合买彩票中奖一人不认账让美丽中国“从细节出发”19岁小伙救下5人后溺亡 多方发声单亲妈妈陷入热恋 14岁儿子报警汪小菲曝离婚始末遭遇山火的松茸之乡雅江山火三名扑火人员牺牲系谣言何赛飞追着代拍打萧美琴窜访捷克 外交部回应卫健委通报少年有偿捐血浆16次猝死手机成瘾是影响睡眠质量重要因素高校汽车撞人致3死16伤 司机系学生315晚会后胖东来又人满为患了小米汽车超级工厂正式揭幕中国拥有亿元资产的家庭达13.3万户周杰伦一审败诉网易男孩8年未见母亲被告知被遗忘许家印被限制高消费饲养员用铁锨驱打大熊猫被辞退男子被猫抓伤后确诊“猫抓病”特朗普无法缴纳4.54亿美元罚金倪萍分享减重40斤方法联合利华开始重组张家界的山上“长”满了韩国人?张立群任西安交通大学校长杨倩无缘巴黎奥运“重生之我在北大当嫡校长”黑马情侣提车了专访95后高颜值猪保姆考生莫言也上北大硕士复试名单了网友洛杉矶偶遇贾玲专家建议不必谈骨泥色变沉迷短剧的人就像掉进了杀猪盘奥巴马现身唐宁街 黑色着装引猜测七年后宇文玥被薅头发捞上岸事业单位女子向同事水杯投不明物质凯特王妃现身!外出购物视频曝光河南驻马店通报西平中学跳楼事件王树国卸任西安交大校长 师生送别恒大被罚41.75亿到底怎么缴男子被流浪猫绊倒 投喂者赔24万房客欠租失踪 房东直发愁西双版纳热带植物园回应蜉蝣大爆发钱人豪晒法院裁定实锤抄袭外国人感慨凌晨的中国很安全胖东来员工每周单休无小长假白宫:哈马斯三号人物被杀测试车高速逃费 小米:已补缴老人退休金被冒领16年 金额超20万

玻璃钢生产厂家 XML地图 TXT地图 虚拟主机 SEO 网站制作 网站优化