2023年1月9日,腾讯研究院、腾讯可持续社会价值事业部联合主办的“腾讯科技向善创新周2023召开。诺亦腾科技联合创始人&CTO戴若犁博士在大会上发表了演讲,题为《为什么我们仍然需要Metaverse?》。

以下为戴若犁博士的演讲全文:

很高兴今天有机会和大家聊几个话题:Metaverse(元宇宙)、AR/VR、AIGC(AI生成内容),以及科技向善。

为了准备今天的演讲,我查阅了过去十年我参与的一些活动、一些讨论以及在互联网上的一些留痕。非常有意思,现在看起来都是历史,而当年我们都在谈论未来。

2013年,我在线上社区回答过一个问题:AR/VR领域最需要研究什么;2015年4月,我在硅谷的一个活动上与大家讨论过AR/VR领域最缺什么;同年12月,我在国内的一个行业论坛上,讨论过未来的AR/VR会长成啥样。那时候我们讨论过Motion Sickness(晕动)、人机交互、力反馈、内容的定义、交互的定义、内容的生成,也讨论过一体机和PC-VR最终谁会赢 。过去十年,有些问题被解决,也有很多问题大家仍然在尝试解决的过程。

元宇宙描述的是一个状态,

是being digital、数字化的终局

我来自诺亦腾,这个公司致力于动作捕捉技术。简单来说就是把人的动作数字化,再把数字化的动作用在不同的领域里,这其中当然也包括Metaverse和AR/VR。我们用光学技术、计算机视觉技术、传感器技术,把高精度的追踪定位和人的动力学联合起来,最终实现数字化的人,数字化的人的动作。

既然我们今天要聊Metaverse(元宇宙),就从它的起源和定义开始。首先,我推荐大家看两本书Being Digital(《数字化生存》)。20年前大家读到这本书,甚至认为它是一本科幻,因为讲的是未来会发生什么。但现在看起来它也是历史。

另外一本是Snow Crash(《雪崩》),它给出了Metaverse(元宇宙)和Avatar(虚拟化身)的定义。这两本书对于给出一个正确的元宇宙定义非常有帮助,因为我一直认为元宇宙它描述的其实是一个状态,是being digital、数字化的终局状态,是分阶段的状态。

每一个阶段有不同的技术能力和人的需求,借助不同的科技、工具和手段,能够达成的数字化终局,就是在那一个时间点的元宇宙。Being Digital《数字化生存》给出了一个非常令人振奋的预测:Computing is not about computing anymore. It’s about living. 就是计算和计算机技术不光是计算而已,它会渗透到我们方方面面的生活里。这一点我非常赞同,在过去三四十年,数字化在不断地发生,当它发展到终局的时候,也就是我们能够看到元宇宙的那一天。

而动作捕捉,也就是诺亦腾所做的技术,在元宇宙里非常重要。这是因为人、人的动作的数字化不仅可以给每个人一个avatar,一个数字化的化身,一个可视化的一个表现,它更是现实世界和虚拟世界、现实世界与数字化人生之间的人机交互的载体。

真正的元宇宙并不避实就虚,

而是数字世界和现实世界混合体

我们所说的自然人机交互,借助的就是人的动作表达、人的表情和自然语言的表达。这和我们等一下会讲到的AIGC和AR/VR也有紧密的关系。

我想给大家看两张照片:左边是我女儿,今年八岁。她在玩一个玩具,这是一个古董、一个立体视觉的玩具,夸张地说,是一百年以前的VR设备。这个设备前面有一张卡片,通过一个双目的透镜,就可以看到立体视觉。右边是2022年10月Quest发布的Quest Pro,当下最先进的VR设备。

大家对比一下这两张图片,我们用了一百年,从左边这个玩具走向了右边的先进的VR设备。好像看起来没有区别,对不对?但事实上,人类经过了大量的科技投入,各个领域里大量的金钱、时间、人力资源投入,才能够从左边的一个玩具走向右边的VR设备,赋予它真正的三维渲染、全视角的FOV(视场角)、高清显示,给它强大的连接能力、计算能力,给它人机交互,给它真正的全彩的沉浸式的人和数字世界的连接。

从一个玩具走向一个生产力工具,走向沉浸式的数字世界的一扇门,需要一百年时间。大家想想,如果我们要追求科技向善,追求解决问题,追求把人的能力增强,走向数字世界,需要一百年的时间,你会参与这件事情吗?我会参与的,因为这是一件非常令人激动的事情。

这张图在我看来,清晰阐述了未来的元宇宙。它来自于Magic Leap, 2016年Magic Leap的一位高管的演讲。

这里有两个关键的信息点:

第一个关键点在图的最下方。真正的元宇宙,它不应该是避实就虚,或者说不应该是全虚拟的、全数字的digital world;它应该是一个mixed reality,一个数字世界和现实世界的混合体。

为什么呢?因为我们的现实世界的信息密度、信息量太大了,如果我们要走向一个纯粹的数字世界,去创造一个纯虚拟的世界,难度太高了,从经济上是不合理的,可能是我们这一代人都无法解决的。

但是混合现实是可以达成的,以现实世界、物理世界作为基础,叠加数字的资产,提升、丰富信息,给人额外的帮助,解决人的问题、增强人的能力,以人为本、以物理世界为本,这个才是我认为真正的Metaverse。一个混合现实的元宇宙,在这一点上我和当年的Magic Leap高度一致。

在这张图的右手边,每一层都有不同的垂直领域,比如有交通、娱乐、能源、教育。我们所说的Metaverse,如果想要一次性地给一个完全态,全面数字化所有的行业,解决所有的问题,太困难,可能没人知道该如何入手。即便有无限的资源,投入无限的人力,也很难一次性实现所有问题的数字化,实现数字增强和混合现实。

但如果把它切割到不同的领域,逐个攻克,每一个领域的企业、从业者、专家、用户来提出需求,解决问题,去找到实现这件事情的路径和办法,一层一层地解决问题。解决出行问题的人去解决出行,解决连接问题的人解决连接,解决能源问题的人解决能源,解决娱乐、教育的人,分层地去解决问题。

以现实世界为基础,这才是我们真正能够去实现元宇宙,才能够把AR/VR等技术交到普通人的手里的路径。

AR/VR可能是下一代的人机交互平台

再来谈谈为什么我对于AR/VR、元宇宙这么上头,愿意花十多年的时间投入在行业里,去做一些有意思、有价值的事情?这是因为AR/VR有可能是下一代的人机交互平台,它很有可能是继个人计算机、智能手机之后的下一代的主力计算设备。这将是一件了不起的事。

我是一个70后,很幸运经历了两次个人计算机的革命。从我小学、初中开始,经历第一次计算革命的尾声,也是它高速增长的时期。从初中开始,我有了自己的个人计算机,我花了很多时间开始学打字,后来学编程。到了2007年,智能手机出现时就更不用说了。2007年,我看着Steve Jobs开发布会,那时觉得智能手机简直像科幻一样的事情,2008年,我在香港买到了第一代iPhone,当时在香港的地铁上很兴奋,不停地划屏,不停地翻看图片,把它放大、缩小,旁边的人都觉得我拿着一个像魔术一样的东西,问我这是不是最新的索尼PDA(掌上电脑)

这两次革命,给我们的生活带来了巨大的变化。

而这两次革命都是工具的迭代、工具的革命。未来的第三次的革命,我有可能会亲历、参与的AR/VR、元宇宙的革命,它将会脱离工具的范畴。

为什么这么说呢?因为AR/VR设备,不再是一个需要掏出来、激活使用的工具,而是一个可能会全日佩戴、全日点亮、无时无刻不在帮助你和增强你的能力的电子器官。举一个简单的例子,我们就说翻译吧,假设我去卡塔尔看世界杯,去餐厅点菜又不认识阿拉伯文,常规的做法就是掏出手机、点亮屏幕,点开Google Translator,拍照、翻译成中文。然后我指着这个图片,告诉服务员我要这个菜。这是一个典型的工具使用的逻辑和流程:激活一个外部的工具,操作一下,让它帮助提升我的个人能力,解决一个实际的问题。

如果我戴着一个增强现实眼镜会怎么样呢?首先它一直开着,我看到任何有不明白的外语,它直接能翻译成中文,我直接阅读,然后拿起菜单点菜。这就是个人能力的增强,是一个电子器官的逻辑。

从工具到电子器官的逻辑变化是巨大的。所以走向下一代平台的革命中,在上一代平台上价值不高的一些工具,可能会在新的平台上面爆发出巨大的价值。比如导航,虽然PC上就可以导航,当年我们出去玩之前,会先用Google Map做路径规划,把它打印出来,然后开车出去玩。但是进入智能手机时代后,大家使用实时的导航,把手机架在手机架上,看着它开车,这变成了每个人都会做的事情,车机上也有很好的导航系统。像翻译这样的工作场景、应用场景,也会让Google Translator这类非常低频使用的翻译软件工具,变成高频使用、更有价值的工具。因为平台使用状态的变化,比如从个人电脑需要开机,到智能手机instant on(随开即用),带来了所有的碎片化的可能性,再由instant on(随开即用)变成always on(随时待命)一个全日佩戴、全日打开、始终在增强你的能力的电子器官。

平台的革命让很多的应用、软件、功能点从低价值变成高价值,从没价值变成有价值,这就是为什么我特别关注AR/VR。因为AR/VR它绝不仅仅是一个玩具、一个工具,它有可能变成下一代的平台,有可能变成一个人类增强器,变成我们的电子器官。

这是一个巨大的business,也是非常有趣的事情。

AIGC可能是下一代平台的“救世主”

最近有一个概念非常火,叫AIGC。我们经常讲UGC、PGC,到现在变成AIGC,也就是人工智能内容生成。最近,文生图、图生图等一些概念或者说解决方案非常引人注目,让人觉得效果特别好,比如像Midjourney这样的平台已经表现得非常成熟,给出的作品也令人惊讶。

在图生图、文生图这个领域,甚至可以说实现了能力的平权,就是让我这样的不会画画、没有经过专业训练的人,可以和专业的画手、绘手、插画作家的能力拉平,我们之间的差距变小了,这就是能力的平权,非常有意思。

另外一件事情是文生文,或者说聊天。ChatGPT最近非常火,我的朋友圈是一个极客、科研工作者的朋友圈,所以我的朋友圈已经炸圈了,所有人都在玩ChatGPT,在这个平台上和它聊天,让它帮忙写文字,是一个很有意思的事情。它也是一种能力的平权,或者说个人能力的增强。

首先它可以是一个高级版本的搜索引擎,但比搜索引擎更有意思。因为你可以追问,它可以扩展,可以正确地组织所有的回答,从而更有逻辑,像是和一个人聊天。而且据说ChatGPT部分通过图灵测试,不少和它聊天的人,会认为对面是一个真人。

另外一方面,它可以是一个小助手。如果语音助手都可以催生出智能音箱这个产业,大家想想看像ChatGPT这样更聪明、更有逻辑,在语言组织和文字生成能力上远超上一代语音助手能力的平台,在这个基础上是不是能够有更大、更多的场景出来?

AIGC与元宇宙和AR/VR有什么关系呢?从两个角度来说,因为现实世界的信息密度很大,AR/VR和元宇宙必须以现实世界为基础,要生成和创立纯虚拟的世界,投入产出比上算不过来账,太难了,工作量太大了。而AIGC有可能是一个救世主。现在已经有人在研究立体的3D资产的AI生成,而很多学术机构和企业做得非常的好,比如NVIDIA这样的企业,投入大量的资源和精力在做这方面的科研。不管是通过文字,还是简单地画几笔、还是几张图片,可以生成3D数字资产,而且质量在逐渐提高。

在AR/VR行业里,大量的定制化的内容的开发和制作所需的人力、物力和时间,远远高于传统互联网里的视频、图像、文字、语音,这些两维甚至一维线性的资产。
这些内容的生产和制备对于普通人来说相对简单、高效,普通人写一段文字、画一张画,投入产出比是算得过来账的,所以说可以生产无比巨大的数字资产,来支撑这一代的整个平台。

如果下一代平台是基于立体视觉的,如何高效地生产高质量的立体数字化资产,更加沉浸的、给人带来价值的东西?3D数字资产的AIGC会是一个非常重要的课题。

如果AIGC能够被产业重视,提出一个辅助普通人低成本、高效、高质量生产3D数字资产的解决方案,那么AIGC就会变成AR/VR、元宇宙的基础设施,也可以说是下一代平台的“救世主”。

如果说下一代平台不再是手机和PC这样的工具逻辑,而是人类增强器、电子器官,全日佩戴的随身工具,随时随地增强人的能力,提高人的体验,提升信息挖掘和交流能力的电子器官,谁会不想要呢?如果有一个万能的像J.A.R.V.I.S这样的一个小助手随时陪着你,会有人拒绝吗?当然从成熟度来看,现在的ChatGPT还更像一个很会聊天的北京的出租车司机,什么都能聊,但是经不起追问和推敲,有时候它会胡说八道,但是没关系,它会进步。即便是像万事通一样,很多东西都懂一点、很会聊天的能力,如果能够附着在普通人身上,也已经是非常有价值的事情。当你需要一些信息的时候,它可以快速地以追问聊天的形式,而不是检索的模式,像智能助手随时随地来帮助你。

ChatGPT、图生图、文生文、文生图这样的解决方案,以及AIGC,和我们今天所谈的元宇宙、AR/VR是紧密相关的,而且非常有价值。

通过科技解决“真问题”

才是真正的科技向善

回到今天主题,为什么我们仍然需要Metaverse?为什么我们今天花这么多的时间去谈元宇宙、AR/VR技术、AIGC?这些都是手段,不是我们目标和需求。我们所需要做的真正的事情,是在每一个领域里解决真正的问题,我们需要增强人的能力。

我们需要用这些手段、这些工具、这些科技去帮助人,提升人和世界连接,提升人类获取信息、表达信息的效率和能力。我们需要增强人本身的基础能力,比如说记忆力、文字识别能力等,这些才是真正的目标。只有通过工具、通过科技,解决了人最基本的需求,解决了行业和领域里真正要解决的问题,才是真正的科技向善。