02 现在的位置:首页 > 期刊导读 > 2017 > 02 >

THUYG-20:免费的维吾尔语语音数据库

【作者】 艾斯卡尔·肉孜 殷实 张之勇 王东 艾斯卡尔·艾木都拉 郑方    清华大学计算机科学与技术系 清华信息科学技术国家实验室 信息技术研究院 北京100084 新疆大学信息科学与工程学院 乌鲁木齐830046

【关键词】 语音识别 维吾尔语 语料库

摘要】语音数据资源是语音识别研究的基础。当前国内只有为数不多的开放的语音数据库供研究者免费使用,特别是在维吾尔语等少数民族语音识别方面,数据资源更为贫乏。该文发布一个完全免费的维吾尔语连续语音数据库,该数据库包括约20h的训练数据和1h的测试数据,同时介绍了构建维吾尔语语音识别系统所需要的音素集、词表、文本数据等相关资源,以及用于构建基线系统的脚本。给出了该基线系统在纯净测试数据和噪声测试数据上的识别性能。该数据库为维吾尔语语音识别研究提供了可以借鉴的标准数据库。

上一篇:基于模糊匹配与音字转换的维吾尔语人名识别
下一篇:汉语普通话不同文体朗读时的胸腹呼吸特性

版权所有@清华大学  京公网安备 110402430053 号
地址:北京市海淀区清华园   邮政编码:100084