来源:2019-06-23 15:44:00 热度:

逼真3D人脸动画等,德国马普所三篇CVPR 2019论文推荐

AI中国网 https://www.cnaiplus.com

据了解,德国马克思·普朗克研究所马普智能系统所共有 14 篇论文入选 CVPR 2019,本文简要介绍了其中三篇。

论文 1:Capture, Learning, and Synthesis of 3D Speaking Styles

  • 作者:Daniel Cudeiro、Timo Bolkart、Cassidy Laidlaw、Anurag Ranjan、Michael J. Black

  • 论文链接:https://ps.is.tuebingen.mpg.de/uploads_file/attachment/attachment/510/paper_final.pdf

  • 项目页面:https://voca.is.tue.mpg.de/ 

  • GitHub 页面:https://github.com/TimoBolkart/voca 

摘要:音频驱动的 3D 人脸动画已经得到了广泛探索,但该领域仍未达到逼真、类似人类的效果。其原因在于缺乏可用的 3D 数据集、模型和标准评估度量指标。为此,我们创建了一个独特的 4D 人脸数据集 VOCASET,它包括以 60 fps 的帧速率捕捉到的 4D 扫描(共 29 分钟),以及来自 12 名说话者的同期声。然后我们在该数据集上训练一个神经网络,它可以将人物和人脸运动分离开来。学到的模型 VOCA (Voice Operated Character Animation) 可使用任意语音信号作为输入(即使不是英语也可以),然后将大量成人面部转化为逼真的动图。

基于多个人物标签训练使得模型可以学习多种逼真的说话风格。在动图化的过程中,VOCA 还提供动图控制器来改变说话风格、依赖于人物的人脸形状和姿势(即头、下巴和眼球转动)。据我们所知,VOCA 是目前唯一无需重定位即可应用于未见人物的 3D 人脸动图模型。这使得 VOCA 适合比赛录像、VR 头像,或者任何无法提前知道说话者、语音和语言的场景。出于研究目的,我们公开了该数据集和模型,参见:http://voca.is.tue.mpg.de。(http://voca.is.tue.mpg.de./)

VOCA 是一个简单通用的语音驱动人脸动画框架,适用于大量不同人物。给定任意语音信号和静态 3D 人脸网格输入(左),VOCA 模型输出逼真的 3D 人物动图(右)。

VOCA 模型架构

VOCA 用人物特定的模板 T 和原始音频信号作为输入,研究者利用 DeepSpeech [29] 从中提取特征。期望输出是目标 3D 网格。VOCA 是一个编码器-解码器网络,编码器学习将音频特征转换为低维嵌入,解码器将低维嵌入

AI中国网 https://www.cnaiplus.com

本文网址:

欢迎关注微信公众号:人工智能报;合作及投稿请联系:editor@cnaiplus.com

AI中国号...

关注微信公众号,了解最新精彩内容