全真互联时代正在悄然到来,加速线上线下的跨时空融合,作为全真互联的重要入口,数字人可以推动线上和线下更加全面地一体化,打造出沉浸式的“全真”体验与可操作的“互联”交互。进入2022年以来,数字人在诸多应用场景大放光彩,特别是在北京冬奥会的开幕式表演、气象播报、手语解说中频频现身,使其用户基础不断扩大。爆点事件推动数字人产业被用户不断加深认知,数字人形态、技术及应用受到大量关注,而支持产业快速发展的底层元素则包括技术的发展、用户新需求、生态完善和标准的支持等。
同时实现拥有“好看的皮囊”和“有趣的灵魂”,似乎还有较长的一段路需要走。而数字人未来也将成为我们全真互联生活中的重要入口。因此,在数字人的进化旅程上,我们需要更多思考:未来数字人应用还将具有哪些可能性,技术路线会产生哪些变化?数字人火爆底层逻辑是什么?数字化身有哪些应用场景?AIGC爆发是可预见的吗?数字人如何拥有“有趣的灵魂”?数字人该不该被赋予独立的主体身份?
2023年1月10日,腾讯研究院在T3未来科技对话的第三期,以《数字人何时会成为虚拟世界的主角-从好看的皮囊到有趣的灵魂》为主题具体讨论了“数字人”这一概念的技术趋势、应用场景、软硬融合发展与未来挑战等问题。
以下为圆桌研讨环节的整理文章,供各领域思想者参考。
司 晓:
目前正在热映的《阿凡达2》,距离第一部上映刚好是13年,两部电影都大量使用数字人技术。这十余年来数字人的技术的进步体现在哪些方面?
沈 威:
我觉得这十年是一个很特别的、很令大家兴奋的十年,尤其在IT发展进程,2012年开始,整个深度学习这一部分有一个很大的进展,我想这个是一个很大的里程碑,现在我们可以看到,已经可以把AI加上CG一起来呈现了,这个在十年前我是没有看到的,我想这是我个人认为最大的一个突破点。另外一个就在实时渲染,通过实时渲染技术提升至少20倍的速率在做这个渲染,这个效率是非常明显的。
虞晶怡:
整个渲染和建模技术在过去的十年里面有一个突飞猛进的进步,其实大家都很惊讶,AI居然能够用来做渲染,原来大家一提到AI,第一反应就是做识别。但是发现其实基于数据驱动的模型,居然在建模与渲染上能有这么大的一个效果。我记得大概在五六年前,用神经渲染(neuralrendering)逐渐进入到图像领域,当时大家还是非常怀疑的一个态度,现在神经渲染已经成为了主流的方式。这个变化给大家带来的,第一原来的高成本的制作,原来比如说一个电影一分钟需要一个一百万美元,现在的成本会降得非常的低,如果后面的生成任务能够实现,整个的成本几乎可以到忽略不计的程度,这就打开了to C端的大门,这个是给AI对于整个的制作流程和渲染流程的革命性的变化。
司 晓:
我们说往后看十年,那离线渲染或者实时渲染的效果之间是不是有朝一日可以达成一个无限接近的状态,离线渲染也会不计成本的使得虚拟真实更加真实,甚至超越真实,那这两个之间的差距会进一步缩小吗?这些技术大概演进方向可以做到什么程度?
虞晶怡:
如果要往后看十年,哪一天如果我们能够做到轻量级的神经渲染,在头盔端,那可能就是革命性质的,所以我是觉得有可能这个AI的算法会推动新一代渲染芯片的发展,使得渲染芯片逐渐轻量级化,以至于你今后的AR眼镜都是很小的芯片,而不是在云端渲染,云端渲染我相信是在很长一段时间会成为过渡。
沈 威:
未来十年可能在云端这一部分,还是很难避免,这是我所认为的,但是算法这部分确实会,所以大家在整个应用上面的成本会有所增加,一个是我们硬件的投入,另外是整个的制作成本,这部分把时间缩短,所以这部分已经取得了很大的进展。我们可以预期在未来的十年,这部分随着整个的AI的算法的进步,就我们芯片的迭代,我相信在这部分的整个效能上面我们能够得到更大的提升。第二个我观察到的就是AIGC这部分,C这一部分变成是一个三维的,或者是变成是一个根本就是影视级别的。刚刚谈到数字人的表层,还有灵魂这一部分,我怎么能够在表层底下就能够跟你互动,我个人是非常乐观的,这两边肯定还会碰撞出更大的火花,产生更好的效果。
司 晓:
我简单的概括一下,就是大家作为个人用户,未来可期的就是这种渲染和生成能力,就会像自来水一样,很低廉的成本随时可以调用,不一定是买芯片,通过云计算的加持,通过AI能力的进一步的进化,大家就可以按需索取,实现简单的类似于或者无限接近电影渲染精度的效果,这个我觉得大家可以想像一下,就是在各种应用场景上面开腾讯会议,甚至今天这种线上研讨会的场景,都会变的非常有意思。
司 晓:
我们也发现了越来越多的电影里面用数字人作为演员,很多的品牌也都用数字人进行代言。数字人是不是真的火起来了,这个火起来数字人共同的特点和原因是什么,行业里面是否有是有这种冰火两重天的现象,以及数字人的火爆会不会成为一个持续的现象?
虞晶怡:
数字人一开始做起来肯定还是往影视方向,这个领域是能够带来效益的最好行业,包括你现在看到绝大部分都是在做广告,而且是做2D的广告的这样一个效果,真正的3D的都还没有,可能一方面终端也不支持,另一方面可能也没有这样一个需求,所以这是很大的局限。我个人觉得数字人到底是不是应该跟真人长的非常非常的像,要长到有多像,这其实是非常难回答的问题。做技术的希望数字人越像越好,但是数字人本身如果完完全全的跟真人一样,其实是非常乏味和无聊的一件事情,所以形象上也许可以做的很逼真,但是最后的卖点,一定是内容,肯定是内容为王的时代。内容如何和虚拟人的表情和表演结合,更让用户觉得有趣,才是今后的数字人发展的一个未来,而且不一定需要它很真实,但是它要变的有趣,所以我觉得有趣,不管是外貌上还是内容上,才是今后真正的卖点。
沈 威:
过去跟很多的艺术创作者有讨论过这个问题,是不是一定需要一个跟人很像的,这个是不是就这种艺术表达上来看,是不是有这个必要,这个东西有时候朦胧之美是不是更好,所以接下来的问题是你的内容是什么,认为可能未来会有几个发展方向吧,所以这不是说现在大家一窝蜂都要往这个做是好或者不好,就还有一些社会以及我们人文的接受度的这方面的考量。
司 晓:
我们已经讨论了数字人相关的技术,怎样实现一个好看的皮囊,我们如何让数字人从外形上更像一个人,未来往更加逼真更加低成本的方向来走,大概会依赖于哪些的技术的发展。
沈 威:
我们如果要谈灵魂,灵魂我们怎么表现?必须要通过互动,不然没有办法来展现。其实这次看到的这部分,这里面还是比较新的,我看到了会越来越多,就我怎么做这些语言学习,大语言模型LMMs这部分,怎么来跟数字人做结合。我现在已经做出了不管说是一个漂亮的皮囊,或者说是模糊,但是很吸引人的皮囊,但是我如果没有一个背后有一个很好的互动的机制,我这个皮囊做出来用途在哪里?这个地方我们现在已经有这几个礼拜大家看到,就整个的事件反映来看,还是很令人兴奋的,应该是GPT3.5这样一个引擎这个模型,假设我们是用GPT4,那是不是又可以带出更多的精彩,这里面就会有非常多的想像空间了,这是非常值得期待的。
司 晓:
今年不知道大家总结是否会把它叫做AIGC的元年,但确实是从这半年图片生成到今天展示的可以生成3D,对话上更像一个人,这个技术忽然到了一个爆发的增长点,那这个背后是有什么原因?为什么忽然有一个拐点?
虞晶怡:
我觉得还是因为深度学习,在很长一段时间大家认为可能深度学习更适合做降维问题,比如识别,这都是一些降维问题,因为当时的算力也很有限,突然有一天大家不仅能做降维问题,也许也可以做升维问题,把一个低维的信号能够变成高维的信号,我觉得这个是一个大家突然间意识到的问题。很大程度上要感谢英伟达的GPU。AIGC虽然很厉害,但是我个人觉得使用到数字人中,我觉得还是不够的,什么叫做有趣的灵魂,第一个这个人要有自己的性格特征,千篇一律的灵魂就不是一个灵魂了。第二点就是我觉得缺少的是情感,而情感是现在数字人里面极其缺少的,如果一定要从数据的角度来看,也许就是从数据角度来说不重要的那些特征反而是最重要的,学习和训练的过程中都丢掉了,所以我觉得这个是非常极具挑战的一个问题,如果做不到情感,我觉得很大程度上你这个数字人会变得相当的无趣。
沈 威:
我补充一下,最后的这个非常对,其实这也是我们观察到的一个发展方向,刚刚在介绍老黄的那个时候,用了很多技术我们叫做Audio2face、Audio2gesture,其实接下来我觉得最重要的就是Audio2emotion,这个就很有意思了,这可能就可以反映刚刚提的,这个是一个亟待突破的问题,确实我们也在开始这件事情,请大家拭目以待。
司 晓:
如何理解软件跟硬件之间的关系,或者我们今天聊了很多的只用于游戏、影音娱乐领域的,或者说追求逼真的软的东西,跟硬件之间的更迭,大概是什么样的东西?
沈 威:
就拿英伟达自己本身来看,我相信在2012年之前,可能大家对英伟达的印象,就是显卡公司,就是做游戏的,其实我们2006年开发了CUDA之后,一只脚进入HPC高性能运算这个领域了,就国内也用了很多,但就是一些非常特殊的行业,比如说我今天做一些高分子模拟等等这方面,在中科院或者高校用的很多,毕竟这还是一个小众。CUDA是不是一个软件,造成了我们今天的HPC的发展,肯定是的,当然2012年之后就是因为整个的深度学习开始了,这也是基于CUDA,在这个基础上面我们跟谷歌合作,就可以做很多的训练了。
未来的话从我们公司来看,我们认为这肯定会是一个硬件跟软件并行的,我们过去可能只是考虑我们在做芯片的时候,就其实之前CUDA刚出来的时候,如果做芯片的设计,肯定要做很多妥协,可是实际上在那时候2012年之前,其实我们卖最多的还是显卡,就一般的游戏用的显卡,你真正在高性能计算领域用的非常非常少的,那为什么我们还要这样做,就这个理由就已经很明显了,所以我们现在已经有非常好的理由说我要往这个生态这样子来继续的来耕耘和发展。
我们今天介绍的Omniverse也是一个例子,芯片的发展不只是硬件方面的迭代,我们今天不只是传统的显卡的性能,比如在AI方面要做很多训练,需要很快速的计算,就需要一些专业的软件跟一些专业的显卡来配合工作。一方面硬件方面会集成更多的AI跟传统的CG能力集成上去,另外一方面我们会看到的是我们会往软件这方面发展,会把很多我们认为就在行业中或者不同的领域会用到、会碰到的功能,通过软件更好的集成到硬件中,我认为这两者的结合会越来越深入,所以我认为硬件和软件是一个齐头并进、融合发展的趋势。
司 晓:
数字人在虚拟世界的分身,应该给不给它一个主体的身份,甚至把它作为生活中的主体当成独立的人格,甚至赋予它法律的权利,两位觉得应不应该给这个看起来具有独立人格有趣灵魂,外表皮囊又很像人的数字人,或者甚至于是机器人,应不应该给他一个独立的主体资格,甚至于赋予它一些法律权益。
沈 威:
我个人觉得可能可以看到的不会是全面性的全功能的数字人,我想可能还是会根据设计者赋予它的任务而形成的数字人,比如这里面可能我会是一个服务型的数字人,可能会有一个特定的面对的对象群,比如我今天是服务型的,如果你取代比如银行的柜员,他的表现方式就可能作为人类,可能期待它的反应,就是可以被预期的,如果往这个方面走,我不会觉得有太多的法律上的限制。
虞晶怡:
数字人的训练过程到底拿哪些数据去训练,以及相关的模型,受制于另外一个设计者,你怎么能够定义说有一个独立的思考能力,独立的人格,所以这个事情本身我认为是一个就是伪命题。这个伪命题在很大程度上是因为机器学习的方法的局限。不管是现在的AIGC也好还是什么也好,其实在我看来并没有突破掉能创造新的知识,那在我看来如果不能够创造新的知识,其实就不是一个拥有独立人格的一个主体,所以我觉得这件事情除非在整个的算法框架下能够得到突破,那我觉得短期内数字人被赋予法律上独立身份这个事情是不成立的。