作者
胡璇 腾讯研究院数字内容中心高级研究员
创造栩栩如生、真情实感的数字化人类,既是《银翼杀手》等科幻作品的想象,也是数字内容创作的不懈追求。 近年,“造人”紧随“造车”成为业界高度关注的话题,不仅有虚拟偶像、MMD( MikuMikuDance,虚拟角色跳舞 )等文化现象大流行,更在AI加持下为数字人类初步赋予自主智能。 在可见的未来里,我们是否能轻松拥有自己在赛博空间中的“复制体”——虚拟人呢?
《银翼杀手2049》中的虚拟人
虚拟人与数字人两个概念多数时候可以通用,相比之下,虚拟人更侧重其在外观、智能等方面与人的相似性,在难辨真假的同时可以进行交互。 笼统地说,通过3D图像软件或其它模拟仿真工具制作,以数据形式存在的人与类人角色,都可以算作数字人( digital humans ),游戏和影视中也可叫做数字角色( digitalcharacter )。
虚拟偶像,则是从应用场景出发的一种称谓 ,无论2D、3D或怎样的表现形式,只要以满足用户对成长、美好的向往为出发点进行公开活动,都可划分到偶像范畴。 虚拟人可以被打造为虚拟偶像,同样也可以成为虚拟演员、虚拟作家等等。
按照美术风格,可以大体划分为高保真风格、写实风格与卡通渲染。 其中写实-卡通是一种谱系而非存在泾渭分明的界线,而卡通风格也可进一步细分,比如美式卡通、韩系风格、二次元风格等。
除风格及场景外,虚拟角色还可以按照制作主体、方式、驱动方式进行分类。 艺术家从创意想象出发,经过2D原画-3D建模-绑定-动画等流程制作出的,属于PGC类型; 一般用户基于平台工具,将自己的照片、视频上传后自动化生成,或组合已有的面部特征、修改参数进行“捏人”的,属于UGC类型。
让角色动起来的方式也很多样,可以手动调整动画的关键帧,再平滑模拟出过渡帧,实现角色动画; 或像MMD那样,导入预先制作好的动画方案,让角色模型舞动起来; 还可以通过面部、身体动作捕捉,将真实运动映射到虚拟角色的身体,部分虚拟主播、虚拟偶像就采用这种方案。
早在20世纪70年代, 对虚拟人的研究就已经在学术界起步。 虚拟人( virtual human或computersynthesized characters )指人在计算机生成空间( 虚拟环境 )中的几何特性与行为特性的表示。
人是一个复杂体,不同的学科领域,对抽象和模拟人类的侧重点也不同。 比如体育、军事等,关注虚拟人运动和行为的模拟仿真; 医疗领域着重对数字化的人体结构进行重建和分析; 图形学、影视的课题则是如何让虚拟人的外形达到真实人类的高度还原。 因此,虚拟人已逐步发展为涉及计算机图形学、运动学和动力学、多功能感知、人工智能和虚拟现实等多个学科的前沿交叉领域。 随着人工智能研究深入,如何让虚拟人具有一定程度的自主感知能力、逻辑推理、语言甚至情感,成为了学界和产业界共同关心的前沿阵地。
医学意义的虚拟人,显然不是我们要讨论的……
泛互联网产业中所谈及的虚拟人技术与案例,大体有风格化-高保真、离线渲染-实时驱动两种发展维度 : 风格化以打造时尚、美丽、萌系等有视觉吸引力的形象为要点,高保真则一般拥有现实中的原型; 离线渲染方式呈现的是预制作的图片、视频,而实时驱动则能够跟随真人的动作、语音文字等信息进行现场“表演”。
英雄联盟中的卡通风格角色Seraphine,以推特账号分享自己的“照片”
本文集中关注的方向是高保真、可实时驱动的虚拟人,有以下三个重要的技术方向 : 高保真、智能化、工具化。 我们距离超级数字场景中千人千面的数字化存在,又有力地前进了一步。
-
在视觉表现层面,做出从外形、表情到动作都1: 1还原真实人的高保真虚拟人( Digital Doubles ),如数字奥巴马;
-
运用人工智能,使虚拟人初具智能和情感表达,如微软小冰;
-
开发更轻量、便捷的工具,让艺术家和普通用户都能快速生产高品质美术资产,或自己的数字孪生体,如Epic的metahuman creator。
为什么要首先瞄准这些方向?
首先,做1: 1还原的虚拟人存在很多技术难点,值得挑战。 人类视觉对同类的形象、特别是对面部高度敏感,在似像非像的阶段,很容易跌入“恐怖谷”。 所谓画鬼容易画人难。 因此,制作风格化的虚拟角色成为另一种选择,卡通形象做出夸张化的动作表情并不会吓到观众,还为艺术创作留下很大空间。 影视等非实时渲染领域,也探索出数字化复制、合成真实人类外形的技术,正向实时渲染的游戏、远程会议等领域进行迁移。
即使突破了静态下拟真的瓶颈,如何让虚拟人自然地动起来,更是一大难题。 人类能从对方的表情、肢体中读取丰富的非语言信息,反过来说,虚拟人表情和动作中些微的不自然都能被察觉到。 简单一个皱眉,牵动骨骼肌肉皮肤一系列变化; 如果用手工的方式调整,工作量极其巨大。 AI在此有不可替代的价值——通过合理架构,利用人类动作和表情数据集,AI 能以人类为蓝本来学习,甚至学到被人类忽略的微妙细节,比如 辨别目标是否在说谎 。
未来在类似头号玩家的数字场景中,每个用户都需要自己的虚拟形象,开放世界中大量的非用户角色(NPC)也需要做到千人千面。 影视级制作的流程和效率显然不适用。 因此,需要为艺术家、一般创作者和普通人,提供符合各自能力和需求的制作工具与素材。
要做到这些方向,需要基础学科的支撑,需要一系列精密硬件、技术、算法和软件的相互配合,更需要跨界的力量。
制作实时渲染、高保真、可交互的数字人类,需要影视、游戏两个领域技术的取长补短。 影视很真实但不实时,游戏正好相反。 影视领域的成熟技术light stage光场摄影,率先解决了“真实度”这一难题。
通过传统流程制作出的游戏角色,仍与真人在细节上有一定差距。 角色制作遵循一条由虚向实的路径,一般流程为2D原画设计-3D建模-贴图-骨骼绑定-动画制作。 因显卡运算能力和引擎渲染能力不断攀升,写实风格的角色效果正不断向影视级靠近: 角色可使用的面数不断增加,材质提升,细节完善,这从《古墓丽影》系列主角劳拉的形象变化可见一斑。
历代劳拉,越发真实
影视领域则选择由实向虚,高保真数字模型制作与后期处理能力结合,诞生出让人瞠目结舌的特效成果。 电影《本杰明巴顿奇事》讲述了主角返老还童的一生,将布拉·德皮特的面部模型与不同体型的演员合成,演绎角色从老年至婴儿的形象变化。 这也是在电影中实现的第一个照片级真实数字主角( the first photoreal digital main character in a film——Paul Debevec )。
皮特本人与使用面部合成技术后的形象
关键技术支撑,来自南加州大学教授Paul Debevec自2000年启动的light stage光场摄影项目研究。 这属于photogrammetry范畴,使用单个场景拍摄的多张不同角度照片来重建3D空间中的 CG 模型。 回忆下《黑客帝国》中的子弹时间特效,现场有多台摄像机,用不同角度的影像重建出可360°旋转的场景。
light stage正是通过构造相机阵列,以多角度、高精度照片,既还原拍摄人物的三维结构,也获取面部的反射信息,从而能在不同环境光下重构人脸模型光效。 light stage在不断迭代中解决了技术和工程难点,包括高精度皮肤纹理合成、光照与环境随时统一、更准确快速的采集过程。
light stage5,《本杰明巴顿奇事》《蜘蛛侠3》《阿凡达》等均使用过
以下是Paul Debevec团队在SIGGRAPH 2008发布的 Digital Emily ,你能分辨出哪一个是真人,哪一个是虚拟人吗?
来自影视的照相建模、高精度3D扫描、面部和动作捕捉相关技术,已经应用到游戏的实时渲染领域,为表现力带来飞跃。 如何进一步满足虚拟人实时交互的需求呢,比如,让演员的表情与虚拟人达成“神同步”? 多个技术团队展开了探索。
为了让虚拟人和我们自然地交流互动,腾讯NExT Studios与AI Lab在虚拟人Siren( 演员实时表情动作驱动 )-Siren AI( 语音文字驱动 )-Matt AI( 更真实情感表达 )项目历程中,逐步探索“秀外慧中”的全方位能力。
2017年启动的虚拟人 Siren项目,目标正是Crossingthe boundary : 跨越影视和实时渲染边界,制作可实时交互的数字人物; 在高保真角色基础上,进一步增加高精度的实时动作捕捉与渲染。
2018 年 5 月, Siren 惊艳亮相,激起了人们对虚拟人技术的无限畅想。 Siren的特性是实时表情动作驱动,涉及多方向的技术突破,在多国企业协同合作下完成: 美国的Epic发起和协调项目,以Unreal引擎整合模型、贴图、动作等数据资源; 塞尔维亚的3Lateral制作高精度人物模型,同时建立绑定,为演员和虚拟人的同步搭建转换桥梁; 英国的Cubic Motion,负责实时的表情捕捉; NExT作为项目所有者,提供基于Unreal引擎的高质量的人物渲染,也积极参与研发的全过程。
Siren亮相2018年GDC,演员是姜冰洁小姐姐
技术的进步为Siren赋予了逼真的3D形象,我们能否进而为她赋予精致的“灵魂”呢? 2018 年下半年的 Siren AI 项目,旨在让虚拟人不止步于“提线木偶”,将智能音箱、语音助手与人自主交互的能力赋予Siren,让她独立做到能听、会说。 这涉及多个AI研究和工程领域,包括语音识别( ASR )、自然语言处理( NLP ),语音合成( TTS ),语音驱动面部动画( ADFA )。 难点集中在最后一步,核心是利用AI训练出语音/文字和面部模型肌肉控制间的对应关系,然后进入渲染引擎、驱动虚拟人。
原理展示
2019年,NExT自主制作了男性虚拟人Matt ,自主完成一整套高保真虚拟人的研发流程,并结合腾讯AI Lab能力,探索语音自驱动且能表达情绪的虚拟人技术,将语音、情感、生动的面部表情紧密关联起来。 相关研究在 2019 年的 SIGGRAPH 顶级会议上展示。
为此,团队建立了一套精确的面部动捕流程,以不同情感下的动作捕捉,来训练语音驱动模型,最终构造了一个长约20个小时、13339条语句的,包含语音、面部运动和身体运动的多模态训练数据集。 在Siren AI 基础上,增加情感维度数据,让Matt拥有微笑、蹙眉等微表情,多了更自然的“人情味”。
Matt的官方靓照
从0开始制作虚拟人,需要较长周期,耗费较高成本。 例如Siren项目从启动采集到能够自然地活动,就用了接近半年时间。 在积累了一定数量人脸数据和素材的基础上,更高效的工具应运而生,既满足游戏制作流程中艺术家创造多样化角色的需求,也让普通人能够便捷生成属于自己的虚拟形象。 较为有代表性的是腾讯NExT Studios的xFaceBuilder™与Epic的Metahuman Creator。
xFaceBuilder™是一套面向专业开发者的全流程管线,能够敏捷生产适用多种终端设备的数字人脸。 平台基于自建的高保真人脸库xFaceDepot,提供影视级人脸建模、绑定、动画生产管线; 针对手机、PC、主机等不同的平台和美术需求,提供了灵活的配置方式,已支持腾讯游戏的多款研发中游戏内容。
平台还结合AI Lab技术,支持单张/多张照片AI捏脸。 绑定好的模型可通过三种方式动起来: 大型项目、复杂动作使用Dynamixyz光学动捕; 如果需求不复杂,甚至可以直接打开最新款iPhone后置摄像头,基于Apple ARKit的轻量级面部动捕,以及更轻量级的语音驱动面部动画生成。
NExT Studios和新华社联合打造的数字记者小诤
近期,AI Lab的相关研究又取得了进一步的进展: 仅需一段手机自拍视频,就能在 30 秒内合成一个高拟真度的 3D 虚拟人。 视频输入到 AI 模型后,只需 30 秒处理时间就能生成一个高拟真度的虚拟人,不仅脸型和五官形状非常贴合,而且具有毛孔、唇纹、毛发级别的细节。 再借助虚幻 4 引擎等基于物理的渲染引擎( PBR ),可以得到真实感很强的虚拟人。 相关研究发表在了计算机图形学顶级期刊ACM Transactions on Graphics。
自拍快速生成虚拟人的流程及效果
2021年初Epic公布的Metahuman Creator工具,让零基础用户也能“捏人成功”。 产品基于预先制作的高品质人脸素材库,允许用户以自动混合、手动调节的方式快速生成虚拟人。 Siren项目后,Epic收购了 3Lateral公司,得到多年积累的大量真人扫描高精度数字资产。
主要特性首先是高效的模版混合技术,可以融合多张基础脸后快速得到一个全新面孔,且栩栩如生,拥有细腻的微表情动画; 二是云端渲染,使用者无须拥有高端显卡,本地操作通过网络传输到云端,渲染后传回视频流,使制作过程做到轻量、优质、便捷。 但这种方式也有局限性,利用已有人脸数据意味着无法随心所欲地创造角色。 因此,工具定位在零基础操作、高品质、快生产,小团队可以直接生成自己的作品主角,大幅提升美术效果、节约创作成本; 大公司则可以批量制作3A级游戏中的NPC。
Metahuman Creator制作界面
虚拟人SUA用iPhone 12 mini实时跟踪的效果
三寸天堂
电影《速度与激情7》拍摄中,主要演员之一保罗沃克意外去世。 虚拟人特效技术复原了他本人形象,以特效完成了剩余镜头拍摄,并特意在片尾设计一段他驶上分岔路、与主角团及观众挥手道别的场景,让影迷们积郁的悲伤得以释放。
再见,保罗
使虚拟人表现更自然,驱动方式更多样。 特别是面部表情、眼神、肌肉运动的细腻流畅,既需要更多的真实数据、更优质的算法,也需要生物学、图形学、影视业的跨界支持。 躯体动作的加强也是未来方向,个性化的动作组合能彰显虚拟人迥异的性格,增加亲和力和可信度,这对虚拟主持、主播、客服等需要和直面用户的领域十分重要。 此外,从用遥感和按键来“操作”角色,到用实时动补、语音和文字带动角色,未来还需要更直观、适合每个人的驱动方式。
推动产学研多方合作,推进行业联盟建设。 如数字人类联盟Digital Human League ( DHL for short )就是由多个高校、产业、行业专家共同成立,并建立了Wikihuman网络项目,提供来自 DHL 成员的博客文章、图文视频资料及联盟成员可以公开的虚拟人项目文件。 例如南加州大学ICT视觉与图形实验室就在项目中分享了2015年成果——虚拟人Emily的原始数据、shader步骤、参考图像和模型,使研究者能够跟进与实践。
加强对人脸数据、AI技术的合理使用,倡导“科技向善”。 尽管技术上已初步支持通过照片、视频快速生成虚拟人,同时3D虚拟人因为与周围环境融合效果差,较难伪造人脸识别结果。 但我们也要在未来发展中,重视加强合理使用和风险防范。
例如,人脸合成应用初期发布时出现了一些滥用案例,包括合成恶意影像、伪造虚假录像等。 业界正在积极开发活体识别等技术,以便能尽早发现和清除网站中的伪造内容。 腾讯研究院也在持续跟踪“深度合成”方面的 政策进展与技术应对方案 。 将相关技术部署到虚拟人应用中后,被合成虚拟人冒用身份的风险会显著降低,视频网站和社交网络等内容平台也能快速高效地清理恶意合成的影像。
感谢腾讯NExT Studios顾煜、葛诚、姚安,腾讯AI Lab暴林超,厦门大学郭诗辉,腾讯研究院曹建峰等多位老师在本文写作过程中给予的支持与帮助!