03 现在的位置:首页 > 期刊导读 > 2017 > 03 >

基于层次化结构的语言模型单元集优化

【作者】 米吉提·阿不里米提 艾克白尔·帕塔尔 艾斯卡尔·艾木都拉    新疆大学科学与技术学院 乌鲁木齐830046 新疆大学信息科学与工程学院 乌鲁木齐830046

【关键词】 语音识别 语言模型 单元集

摘要】对于大词汇量语音识别系统,适当选择基本单元至关重要。虽然以词为基本单元时避免了词边界的确定等复杂过程,但很多派生类结构中(如黏性语言),词比较长,而且很多文字(如中文、日文等)不需要词边界,因而在自然语言处理应用中没有选取基本单元集的固定模式。该文以维吾尔语大词汇量语音识别系统为例,研究基于各个层次化粒度单元的语音识别系统。通过比较各种层次化单元集为基础的语音识别结果,分析错误识别模式,收集被误判的单元序列作为在2层单元序列结构中择优的训练样本库。比较各种单元集的优缺点,提出一种能平衡长单元集和短单元集优点的方法。实验结果表明:该方法不仅可以有效提高语音识别准确率,也大大缩减了词典容量。

上一篇:基于大数据的社会治理数据集成及决策分析方法
下一篇:基于BLSTM-RNN的语音驱动逼真面部动画合成

版权所有@清华大学  京公网安备 110402430053 号
地址:北京市海淀区清华园   邮政编码:100084