全真互联让“在场”变为可能

作者
司  晓    腾讯集团副总裁、腾讯研究院院长
01
看不见的技术:
从Horizon Workroom到 QuickSilver

虚拟的世界正变得越来越真实。玩过《黑客帝国:觉醒》的朋友们,可能会对这款游戏的画面印象深刻:在20多个GB的文件里,开发者呈现了一个16平方公里的城市,这里融合了许多美国大都市标志性建筑,可谓纤毫必现。腾讯自研的游戏引擎 QuickSilver ,也可以瞬间将你带到《天涯明月刀中》所描绘的古风世界。

今天,人类完全可以在一个2D平面上,通过数字化技术和虚拟引擎,去创造一个原本不存在的场景。腾讯正在深圳大铲湾半岛上建立一个新未来总部,目前暂时还没有官方命名,我们内部称其为“企鹅岛”,过去,腾讯研究院在智慧城市、游戏方面有许多积累,因此也在和公司基建团队在密切配合参与设计建设“企鹅岛”。作为一家科技公司,我们也特别想做点“有意思的事情”。

按照设计方案,我们将在一款沙盒游戏中复现企鹅岛,一方面是去探索游戏所积累的仿真、AI 等科技在建筑设计等场景的应用,另一方面也借此验证我们的规划,包括交通、能源等系统的设计是否合理,面对突发情况该如何科学应对,以一种更低成本的方式去优化和“试错”,去更科学地规划我们的未来总部。

现在大家在线开会大部分时间是用腾讯会议,大家通过屏幕上的小方格窗口交流,这是我讲的叫“在线”,但是这种会议会出现一些问题,因为大家不在一个场合,会出现抢答或突然安静,而线下是较少发生这种情况的。这其实就涉及到一个核心问题:在线办公和传统线下办公有什么区别?我认为就是缺乏临场感,这也许就是为什么Facebook做了一个叫做Horizon Workroom的应用。

我曾经做过一次实验,我和在北京、上海的三个同事在各自办公室里面戴了一VR头盔来体验Horizon Workroom,通过这些设备就可以呈现一个“在场”的会议,参会者可以通过手柄在自己的画板上去画一个内容,这个内容就会同步拼接在一个黑板上,能够更直观地表达我们要描述的事情,大家能看到彼此的动作,我旁边的实际上是个男同事,但是他用了一个女生的IP,所以这个虚拟化身可以用男、可以用女、可以用一个小动物。由于现在的VR眼镜只有4个摄像头,只能追踪人的上半身,但是当你进入到这个场域里面,你会发现有点“未来已来”的感觉。

虽然它看起来有点简陋,但是你可以和你的同事交头接耳,甚至还可以握手,但是因为这个设备没有力反馈的功能,所以一握手就会穿帮。但当你真的深入其中时,你会发现语言是苍白的,2D的屏幕也是苍白的,只有你进入到这个虚拟的场域里面,你才懂我到底在说什么。

谷歌也在做这方面的探索,谷歌的Project Starline采用光场技术,构建了一个裸眼3D的远程会议系统,你会发现屏幕里的人就好像坐在你的正前方一样,而且你可以左右走动的,系统会随着你的位置、随着你眼的距离,并且会捕捉你视觉的焦点,然后去调整相应的成像,使得你在走动时也能感受裸眼3D的效果。电影《王牌特工》里就设想了类似一个场景,如果大家开会,戴上一个眼镜,有的人是物理“在场”,有的人是虚拟“在场”,大家就可以在一个场域里面共同开会。

微软Microsoft开发的mash系统,初衷是打造一个虚实结合的一个协同空间,这个空间可以用来开会,也可以用来进行协作设计。当你戴上眼镜,你可以看到同学或同事以虚拟化身的方式坐在你的旁边,你们可以一起在会议室、办公室进行互动,实际上是增强现实,你可以看到空气中投射出一个模型,你可以把这个模型随时打开,然后去拆解,去看里面的元素,借此实现更精细的设计,这比传统远程沟通效率要高许多。
当然,微软应该对演示视频进行了一些加工,实际上目前还没有办法实现如此精细、稳定的定位,但是在未来硬件迭代中,实现这样的功能只是时间的问题,在一个物理和虚拟结合的场域里,实现一群人在线办公指日可待。
讲到这里,就会出现一个问题,我们为什么要讲面对面,我很赞成风险投资家马修·鲍尔的看法:“在场”感意味着在一个虚拟空间中与虚拟的他人一起实际存在的感觉。例如,将来不再只是通过屏幕进行交流,而是“你将能够作为全息图坐在我的沙发上,或者我将能够作为全息图坐在你的沙发上……以一种更自然的方式,让我们感到与人更多的在一起”,这种身临其境感可以提高在线互动的质量。

如果办公这个例子你觉得还不够有说服力,我认为下面两个例子可能会有助于来说明我们为什么需要“在场”。

目前线下的演唱会聚集十万人都很难,2020年4月,美国歌手Travis Scott在线上游戏《堡垒之夜》中举办了一场虚拟演唱会,这场演唱会有2000多万人在线观看,它不仅仅聚集了那么多人,还可以观众和演唱者实现实时的互动。观众戴上VR设备,不但能看到歌手在虚拟空间中化身的动作,聆听环绕身边的音乐,同时还能看到其他观众的反应和动作,一起挥手、跳跃等等。新科技让大家足不出户,也能体会到亲临现场的感觉。

在今年6月上线的由中国文物保护基金会和腾讯公益慈善基金会联合发布的“云游长城”里,基于游戏技术打造的“数字长城”正式亮相,用户通过手机就能立即“穿越”到喜峰口西潘家口段长城,在线“爬长城”和“修长城”。“数字长城”是由光线追踪技术、虚拟几何体技术等最新的虚拟仿真技术的集成,更重要的是,它通过手机来直接访问就可以实现。这段长城现实中是不存在的,我们拿这个技术去复建一段损毁的长城,肯定也是没有问题的,它比《黑客帝国:觉醒》呈现的画面更为精确,在《黑客帝国:觉醒》中,你无法在大区域里去推进任何一个镜头,在“数字长城”中,你可以从任何一个毫米级的角度去看一片树叶、去看一块长城破损的砖,并且你可以通过互动的方式去修复它,然后通过这种互动的方式可以在手机上面直接实现。当前手机的算力是没有办法支持这样的大运算,所以它必须把算力放到云端,手机只呈现运算的结果。

以上这些案例都是数字技术在仿真与“在场感”的一些贡献。北京大学新闻传播学院教授胡泳曾在一篇文章中写道,“沉浸在一个栩栩如生的的数字世界中。你看到的东西填满了你的整个视野,并且你的每一个动作都获得追踪 。这种体验唤起了我们所说的‘在场感’……这带来一种亢奋,而且具有难以捉摸的属性:超越性的、被远距传输的刺激,你觉得自己在另一个世界中身临其境,而不用考虑自身实际上不过是在原地站着或坐着,似乎可以一下逃离眼下的世俗事务。”

实际上,VR头盔无形之中改变了我们的交互方式,VR设备第一次把人体作为输入设备,你甚至可以通过大脑转动的方式驱动屏幕显示相应的内容,整个摄像头也在追踪你的全身,在下一代头盔会在内部装两个摄像头去实时捕捉表情。

02
从“在线”到“在场”:迎接全真互联

今天,我们正进入到一个全真互联的时代。全真互联是通过多种终端和形式,实现对真实世界全面感知、连接、交互的一系列技术集合与数实融合创新模式,是实现从“在线”到“在场”跃升的关键一步,对个人,全真互联能随时随地提供身临其境的体验;对企业和组织,全真互联让服务变得更可度量,质量更可优化,推动组织效能提升;对社会,全真互联让资源利用效率提升,为产业发展模式带来创新,提高政府治理效能。

“在线”和“在场”是一个空间与时间的重组,是一个主体和客体的同步状态,是一个本我与他我同时在线的状态。

“场”是一个人和人,或者人和环境相互影响、交织的氛围,清华大学副校长杨彬教授曾经分享过一篇文章,谈到线上课堂和线下的课堂区别到底是什么?文中一句话说,在线下的课堂你一眼就能知道到这个教室里面是一个什么样的状态,是否是井然有序的,人是多是少,所以它不需要通过你的眼睛去有意地捕捉这些信息,窸窸窣窣的声音,不同的体态与表情,甚至于空气中的一丝异样。空气中的氛围是难以描述的,我们说空气忽然变得很暧昧、变得很安静,如果大家不在一个场域里面,很难产生并捕捉到这种氛围。

节假日的时候去长城,游人如织,所以有一个词叫摩肩接踵,形容情人关系密切有一个词叫耳鬓厮磨,但如果我们不在一个空间内,而是面对一个屏幕,是没有办法实现摩肩接踵和耳鬓厮磨这种感觉的。上课时有同学会被老师批评交头接耳,但是如果对着腾讯会议大家可以做到交头接耳吗?显然不可以,很多的成语都是带有物理空间场域和氛围的描述和概念在里面。

还有一个比较概括的词是“身临其境”,你无法判断真和假,诗人也好、小说也好、作家也好,他是有很强的能力,用语言的魅力让你产生身临其境的感觉,但它一定不是具像的,也许你和作者描述的感觉和他见到的感觉是不一样的,但是他通过一段非常华丽的文字能够让你置身其中,产生身临其境的感觉,但一定不是数字长城和虚拟办公室的这种感觉,这种感觉只有当你戴上VR头盔时才会体验。所以,“在场”是一个空间与时间、主体与客体、本我与他我实时同步的状态。麦肯锡说未来虚实合成的世界应该是immersing,沉浸感、具有实时交互的。腾讯董事会主席兼CEO马化腾提出的全真互联网也在行业内引起热议,移动互联网发展十年之后,可能有下一波的热潮,我们称之为全真互联网。微软CEO萨提亚·纳德拉认为:“在场”是元宇宙的杀手级应用。奇绩创谈创始人陆奇发现:“元宇宙”本质上是一种体验容器,让人与人、人与环境之间的交互是“在一起”,即Embodied Experience。

结合以上行业大佬的论断,我也试图做一个总结,希望把视角从数字时代放大到整个人类发展的历程上来,从信息传播的载体、信息传播的形态以及信息传递的效率这三个维度来看时代的变化。

农业时代的信息载体是竹简、羊皮和纸张。信息传递是靠什么呢?网上有个段子说:“出行基本靠走,通讯基本靠吼”,在没有辅助性工具的情况下,之前的通讯就是这样,长距离的传递如驿站、七匹马八里传输、烽火、狼烟……传递信息的方法也无外乎此。

进入到工业时代,出现了现代印刷术、出现了电话、电报、BB机、手机、pad等通讯工具,大概是一个2D的空间。到我们下一阶段,叫元宇宙也好,或者叫别的也好,不一定叫做元宇宙,这里面可能是各种的智能终端沉浸式的体验,从“在线”到“在场”的过程中,是把我们之前有价值的通讯细节重新通过技术还原找回来的一个过程。

这里,我用一个特别具体的例子来给大家讲,90年代开始,为了在只能发文字的互联网上表达情感,网民发明了颜文字,后来有了emoji,emoji 又变成了表情包。但到表情包为止,其实我们都不是“在场”的状态,而是“在线”的状态。因为表情包没有办法像真正的人脸那样表达那么多复杂的微表情,也没法和真实表情实时同步。
苹果公司在2017年发布的Animoji,可以让你录一个简单的表情,你会发现表情从“离线”到“在线”以及到“在场”的状态是什么,在一定程度上将“在线表情”向“在场表情”推进了一小步。未来,我们可能会完全补上实时表情的信息缺失,以虚拟人的形式实时出现在远方的现场,实现身体的复制和延伸。

在美国综艺节目Alter Ego里 ,一位单身妈妈以虚拟化身的形式登上舞台。由于她唱功非常好,但又很内向,所以她选择创造了一个与自己性格完全相反的形象,这让她更有勇气面向观众。这样的节目可以避免一些没经验的歌手因为场上氛围的影响或紧张,造成发挥失常,以便能更好的演出。

目前腾讯也在快速迭代数字人的版本和能力。从2018年当时应该是代表当时最高水平高保真的虚拟人叫siren到最近的Digital Steven。

下面我们去看一下具体的例子。

第一个例子是2019年上映的科幻电影《阿丽塔:战斗天使》里的角色阿丽塔。很多人看完电影都觉得,阿丽塔的“大眼睛”深深印在自己的脑海里,挥之不去,她从纯真到成熟的变化都映射到眼神的变化上。卡梅隆这次启用了全球顶尖特效公司维塔工作室,并将电影制作中的“动作捕捉”升级到“表演捕捉”。人类的眼珠不是一个单纯的球体,为了复现它复杂的光学表现,需要计算光线在其中复杂的光路运动。其过程大概是首先让阿丽塔扮演者罗莎佩戴设备按照剧情演一遍,电脑会捕捉到表情和动作的基本数据;再让罗莎做一项“压力测试”,测试出肌肉在最大拉伸情况下的极值数据,作为阿丽塔这个CG人物表达各种情绪时动态的算法基础;最后通过人为调整,使阿丽塔不仅在动作、表情上更像人,连瞳孔的细微变化也更接近于真实。

再往后推十年,技术就没有那么先进了。2009年拍摄《阿凡达》的时候,演员在摄影棚里拿着类似于刚才唱歌的设备去拍一个电影,可以看出人和怪物都特别假,因为都是通过后期合成的。如今我们做出来的是通过实时捕捉的方式帮你转化成另外的样子,所以在直播的空间里面也有不同的应用,数字人的技术包括腾讯也取得了不错的成绩。

知名科幻作家刘慈欣曾经说过,人类的科技树有两个方向,其一是星辰大海,另外一个则是在虚拟空间里不断地内卷。这句话有把二者对立的意思,但实际上,这两个应用方向并不必然冲突,甚至有可能是相互依存的。技术总是以涌现的方式持续出现,我们实际上是无法完全预测每项技术的突破,在未来会产生什么样的应用,带来什么样具体的变化。

我通过下面的几个例子让大家再从不同的角度来思考一下,空客是如何通过这个增强现实的设备来去做设计的,这个设计包括停机坪、发动机的制造、飞机的制造,通过AR技术可以随时把一个飞机拆开看到它的任意一个位置,然后可以在设备的提示下在相应的位置扎一些绑带,帮助新手能够直接实现远程操作。

这些技术已经走向应用。2019年,在腾讯全球数字生态大会上,腾讯云和三一智矿有一个合作,实现了在武汉的展厅中远程控制鄂尔多斯的矿车,驾驶员可以通过三连屏在不同的矿车之间来回切换。操作台与矿车之间相距 1500 公里之远,但整个驾驶过程的延时非常微小。腾讯还开发了一个叫迈克斯的机器人,它会走梅花桩,它也是全球首创在它的膝盖处加个滚轮,可以实现轮足切换,这样走的好处是,轮的摩擦力是更小的,可以比腿走节能40%左右。日本的一个人形的重型机器人,技术人员带了一个头盔,机器人的头、手臂会随着技术人员亦步亦趋地做动作,它可以把很重的装置拿到一个电线杆上,把它举起来安装在上面,避免人类高空作业所带来的风险。

当这些技术拼接在一起的时候,还需要一个“在场”。

新华社和腾讯NExT Studios联合打造、专门面向航天主题和场景研发的数字记者“小诤”,她将承担起载人航天工程、行星探测工程、探月工程等国家重大航天项目的“现场报道”任务。在一次造访火星的虚拟采访中,我们用虚幻引擎做了一个远在5500万公里之外的火星“在场”,通过数字仿真技术还原了火星上最大的峡谷水手号峡谷,并且还模拟了火星的天气变化,这是典型通过数字化的方式实现远程对火星的“在场”。现在,神舟12号宇航员在日常训练的时候,已经开始用这些VR的设备用于太空里面的装置的操控和训练,并且实现了在太空和家人进行远端的相聚,这个和面对屏幕的那种感觉带来的心灵安抚是不一样的。

03
反哺:星辰大海和虚拟空间并非对立

当这些技术集合在一起的时候,我们甚至可以得出一个大胆的结论,其实星辰大海和虚拟空间它并不是对立的。除了以上这些,我们还可以通过触觉、嗅觉、视觉来实现“在场感”。

亚马逊老板贝索斯投资的一款触摸式远程机器手可以完成24个动作,并配有129个集成传感器,可跟踪位置、力度和压力等因素,其磁线运动的捕捉系统能以亚毫米的精度来跟踪,手上的每一个关节上都有圆形的一个环,这个环是实现力反馈,当你的手指抬起来的时候手环受到压迫,就会给你一个阻尼,这个阻尼是电调的,可以实现摸的东西到底是硬还是软,所以它可以握手。触觉虚拟现实,可能短期内会先在社交与游戏领域找到应用场景,但等到它的水平进一步提升,就可以被用来远程精确操控一些机械设备。

对嗅觉的机器识别也在推进中。在日本从事电气设备和软件开发的企业Next Technology在2017年开始生产一款名为“Hana酱”的机器狗,它可以闻出几个我们生活中常见的一些气味,甚至还能够做防爆检查,现在的技术是能够感受得到物理的气味,闻到一个客观的气味,但是短期内还不能做到异地远程闻到更多的气味。

视觉机器仿生技术则有望让盲人“看到”光明。人体负责视觉的细胞大致分为三种,前段细胞、光感受器、输出细胞,当前段的感应器出现了问题,我可以用这样的一个芯片来去替换视网膜前两段细胞的功能,然后把模拟脉冲的信号交给输出细胞,输出细胞把同样的脉冲信号去传递给你的大脑,帮助盲人去感知这个世界。

如今,音频的处理也离不开AI技术。天籁实验室是腾讯会议旗下的一家实验室,这个团队主要工作之一是研究音频降噪,比如当你在嘈杂的环境里面开会时,如何能够保障过滤掉对开会无意义而且是有损耗的声音。

虚拟世界的技术到底对物理世界是有怎样的价值?如果我在现实世界中希望用积木搭出高塔,我可以先通过在数字世界里面去做仿真,把所有的东西都仿真出来,让机器去摆,搞清楚怎么样摆是最稳、最牢,然后直接把这个算法交给机器人,所以这个机器人在物理世界中不需要第二次训练,因为已经在它的大脑里面AI已经完成了训练,直接把经验告诉它。

自动驾驶要想实现安全行驶,至少需要100亿英里的测试,自动驾驶只做到99分安全是没有意义的,只有是做到100分满分安全才有真正现实意义。100亿英里测试如果是由100辆自动驾驶汽车来完成测试,也许需要测试500年,如果在虚拟世界里面做了自动驾驶仿真的系统,这个系统里面模拟恶劣天气,可以去制造一些道路突发状况,而且可以24小时不间歇地测试,实际的成本可能只有线下测试的不到10%,所以说纯粹的虚拟对我们现实还是有意义的。

我首先认为,从“在线”到“在场”实际上是不断涌现的技术,它并不是突然出现一个技术,或者出现哪一个设备,一下就进入到虚拟世界里、不愿意出来,这些都比较危言耸听,我们一直反对炒作元宇宙概念,这种炒作很多可能是跟资本市场的炒作是有关系的,所以腾讯不太愿意去讲元宇宙的概念,但是我们对全真互联网、下一代的技术集成能产生怎样的效应,以及用户的感知,在这个方向上的判断和国际领先公司是一样的。

要想实现真正的“在场感”,一定是技术的升级和演进的必然。30年前,我们说互联网是信息高速公路,10年前说移动互联网时代来了,这些并不是严谨的概念,但是大家都约定俗成地把它们当作一个“大箩筐”,把许多新技术、新产品往里面装。所以,下一代叫元宇宙也好,叫“在场感”也好,叫全真互联网也好,它只是一个名字,本质还是下一代技术的集合体,在技术的加持下,我们对于未来的生活、对于更真实的虚拟世界、更美好的现实世界,是可以期待的。

(本文根据腾讯研究院院长司晓于今年8月27日在深圳市民文化大讲堂的主题演讲整理而成。)