0-9(Speech-Recogenition) 联合开发网

Pudn.com > 下载中心 > 语音合成 > 0-9(Speech-Recogenition)

0-9(Speech-Recogenition)

所属分类：语音合成
开发工具：matlab
文件大小：109KB
下载次数：614
上传日期：2011-01-10 19:46:46
上传者：fatsoding

说明：用matlab仿真0到9十个数字的语音识别 1、对语音的WAV文件和LAB文件进行处理，产生十个文件，每个文件对应于一个数字，存贮着该数字的波形文件。（shujuzhengli.m） 2、分别利用上面十个文件训练出十个HMM模板，具体方法是：首先将语音的波形文件分帧，以128个点为一帧，帧移为64，每一帧通过mfcc.m计算出13个系数，随着波形的长度不同，一个语音文件可以计算得到13*N个系数，截取13*15的矩阵（mfcc系数）用作训练数据。一般一个HMM模板用20组mfcc系数训练，得到初始状态分布、状态转移矩阵、高斯正态分布的均值和方差以及混合矩阵，这就是该语音的特征，存贮下来，识别的时候使用。（trainmfcc.m） 3、识别过程：识别的前面部分与训练相似，都是要计算得到mfcc系数，不同在于，识别时，将计算得到的mfcc 参数分别代入训练得到的HMM模板求出概率，比较出最大概率者，则该模板对应的数字就是识别的数字。(shibiesb.m) 4、用大量语音文件做测试，结果正确率为90 以上。
(Speech Recogonition: Mumber 0-9)

文件列表:

dist2.m (921, 2005-04-27)
em_converged.m (1189, 2005-04-25)
fwdback.m (6896, 2006-02-17)
gaussian_prob.m (848, 2005-04-25)
gmm.m (4091, 2005-04-27)
gmminit.m (3441, 2005-05-23)
isposdef.m (289, 2005-04-25)
kmeansNetlab.m (3642, 2005-04-27)
logdet.m (211, 2005-04-25)
max_mult.m (664, 2005-04-25)
mfcc.m (6320, 1998-11-13)
mhmm_em.m (5349, 2003-08-19)
mhmm_logprob.m (960, 2003-08-19)
mixgauss_init.m (1357, 2005-04-25)
mixgauss_Mstep.m (3283, 2005-04-25)
mixgauss_prob.m (4102, 2005-04-25)
mk_stochastic.m (826, 2005-04-25)
normalise.m (861, 2005-04-25)
process_options.m (4526, 2005-04-25)
READHTK.M (2641, 1998-05-12)
readlab.m (1131, 2007-11-13)
shibiesb.m (1707, 2007-12-26)
shujuzhengli.asv (3122, 2007-12-26)
shujuzhengli.m (3152, 2007-12-26)
sqdist.m (742, 2005-04-25)
t200.lab (81, 2003-05-29)
t200.wav (23532, 2003-05-29)
t201.lab (87, 2003-05-31)
t201.wav (30284, 2003-05-31)
t202.lab (85, 2003-05-31)
t202.wav (25964, 2003-05-31)
t203.lab (87, 2003-05-31)
t203.wav (24332, 2003-05-31)
tongjijieguo.m (692, 2007-12-26)
trainmfcc.m (1714, 2007-12-26)
consist.m (2694, 2005-04-27)

近期下载者：

相关文件：

评论：[我要评论] [举报此文件]

收藏者：