03 现在的位置:首页 > 期刊导读 > 2017 > 03 >

基于BLSTM-RNN的语音驱动逼真面部动画合成

【作者】 阳姗 樊博 谢磊 王丽娟 宋謌平    西北工业大学计算机学院、陕西省语音与图像处理重点实验室 西安710072 微软亚洲研究院 北京100080

【关键词】 虚拟说话人 面部动画 双向

摘要】双向长短时记忆(bidirectional lorg short termmemory,BLSTM)是一种特殊的递归神经网络(recurrent neural network,RNN),能够有效地对语音的长时上下文进行建模。该文提出一种基于深度BLSTM的语音驱动面部动画合成方法,利用说话人的音视频双模态信息训练BLSTM-RNN神经网络,采用主动外观模型(active appear-aneemodel,AAM)对人脸图像进行建模,将AAM模型参数作为网络输出,研究网络结构和不同语音特征输入对动画合成效果的影响。基于LIPS2008标准评测库的实验结果表明:具有BLSTM层的网络效果明显优于前向网络的,基于BLSTM-前向-BLSTM256节点(BFB256)的三层模型结构的效果最佳,FBank、基频和能量组合可以进一步提升动画合成效果。

上一篇:基于层次化结构的语言模型单元集优化
下一篇:面向高通量应用的众核处理器任务调度

版权所有@清华大学  京公网安备 110402430053 号
地址:北京市海淀区清华园   邮政编码:100084