6月22日晚,由腾讯研究院、腾讯优图实验室、腾讯科协联合主办的“深度合成技术应用与治理研讨会”在线上召开。此次研讨会聚焦“深度合成”技术,邀请人工智能领域的专家、学者以及行业大咖,围绕“深度合成”的技术趋势、应用前景、挑战应对以及伦理治理等议题进行了深度研讨。会上,腾讯研究院秘书长张钦坤,以“深度合成的技术发展、应用趋势与治理路径”为主题,进行了主题演讲。以下为演讲的整理稿。
 
       大家晚上好,我是腾讯研究院的张钦坤。今年5月,我们研究院和腾讯优图实验室一起发布了业内首份深度合成技术报告——《AI生成内容发展报告2020——“深度合成”(deep synthesis)商业化元年》,在业内获得了不错的反响。今天,我主要基于这份报告给大家做一个汇报。我的分享主要分为三个部分:第一,深度合成的技术发展状况;第二,目前的主要应用及发展趋势;第三,对深度合成技术及其应用的治理,也就是谈谈这种新兴的、基于人工智能的技术在发展中可能带来一些全球性的问题,全球范围包括我们国家是如何应对的。

 

“深度合成”具有多元化应用形式,“数字人”是其重要发展方向

       首先谈一下技术的发展。深度合成作为一种AI合成/生成内容的技术,是人工智能发展到一定阶段的产物。这里首先需要澄清下“深度合成”的概念,来纠正以往社会上总是用“深度伪造”(deepfake)这个词来指“深度合成”(deep synthesis)的做法。实际上,深度伪造是一种特定的AI换脸的方法,特别是在色情性的AI换脸视频中得到应用。如果用“深度伪造”来涵盖“深度合成”,我们认为存在明显的以偏概全,是很不科学的。而且“深度伪造”这个词也容易给技术发展带来污名化影响,它强调这个技术的潜在欺骗性,使得社会公众可能认为这个技术是一个负面的技术,不符合科技向善的特点,这样就不利于这个技术的发展应用。
       第二点,深度合成这类AI技术应用之所以能够在这两年迅速兴起,很大程度上得益于生成对抗网络(GAN)这一AI算法的出现和发展,这种算法可以用于生产高度逼真的合成数据。第三,深度合成的实现一般分为数据的提取、数据的训练、数据的转换三个步骤,这个过程中还需要用到图像融合等技术。
       下面重点谈一下应用。目前,深度合成主要有四种形式。第一,人脸替换,就是将图像或视频中的人脸替换为另一个人的脸,俗称AI换脸;第二,人脸再现,对目标人物的脸部特征进行修改,从而改变其面部表情,通过这样一种方式可以让目标人物表达他们在现实当中没有说过的话或者做没有做过的事情;第三,语音合成,它是通过创建一种特定的声音模型,把文字转化成逼真的人声,这个目前应用得比较广泛。最近几年一些语音播报类应用中会出现名人的语音播报,其实就是这种技术的一种应用;第四,人脸合成,也就是说,通过深度合成技术,可以生成一些虚拟的、现实中完全不存在的人脸,这也是生成对抗网络的典型应用,像thispersondoesnotexist.com网站上的非常逼真的人脸,我们乍一看好像觉得就是现实中的人物,但实际上这些人脸在现实中是不存在对应的真实人物的。
       就深度合成的发展趋势来讲,特别是从互联网行业的应用来看,目前“数字人”是它的一个重要发展方向,应该说“数字人”是多个人工智能技术的集大成者,它需要综合运用各种AI技术和方法,如计算机视觉、视频合成、语音合成、自然语言处理等等。目前,“数字人”已经成为 AI领域的新风口,国内外的主流互联网公司都在加强布局,未来这个技术会应用在非常广泛的领域。例如,腾讯AI实验室已将“数字人”列为两大攻坚方向之一,基于深度神经网络的3D人脸和人体重建、文本/语音/口型驱动和神经网络渲染等技术,使所生成的“数字人”看起来真实自然。“深度合成”在多个领域落地应用,同时发挥出“科技向善”的潜力。

深度合成技术的应用多元化,为科技向善助力

       经过这几年的发展,深度合成已经从传统的“deepfake”发展出了更多元化的应用,驶入商业化发展的快车道,在影视、娱乐、社交、艺术、医疗、科研、教育、电商、虚拟现实等等领域都有深度合成技术的应用。所以在深度合成的研究报告中,我们提出,2020年是深度合成的商业化元年,预计未来深度合成将在越来越多的场景中走近我们的生活。目前来看,主要有三个方面的应用趋势值得关注。
       第一,娱乐和数字内容会是深度合成的一个主要应用场景。这里又分为四个类型:一是影视创作,现在深度合成技术已经可以对已去世的演员进行数字化的复活,比如在《速度和激情7》里面,沃克不幸逝世,片方为了解决这个问题,让他的弟弟先拍摄了这个场景,再通过深度合成技术进行人脸的替换。此外,深度合成技术还可以自动执行各种语言的逼真配音,让影视配音变得更加便利真实。

图片来源:网络

       二是社交娱乐,图像融合和AI换脸也可以让用户在娱乐、游戏里面有更多的新奇体验。
       三是电子商务,深度合成技术驱动的AI虚拟模特可以代替真人模特,也可以实现数字试穿,它最大的一个特点是可以让用户根据自己的特点来在线试穿相关的衣服和鞋帽,让用户的体验更加接近于线下购物。所以,深度合成技术可以进一步增加电子商务的个性化体验。现在已经有国外公司在做这方面的尝试。
       四是虚拟现实,美国的《时代》周刊和数字王国公司打造了一款VR视频叫“大游行”(The March),通过数字化的方式复活了马丁·路德金,虚拟地再现了美国1963年的大游行。此外,在远程交流和会议中,还可以使用人脸数据创建3D网络模型,并实时更新眼神、表情及肢体语言,实现逼真的虚拟交互。也就是说,等这个技术成熟了,未来这种在线的会议,大家可以不以自己的真面目来呈现,而打造一种自己喜爱的形象来进行表达,和大家交流,实现一种虚拟的、但是又不失真实的交互。
       第二,我们认为“数字人”这样一个人工智能的集大成者,也会在数字内容领域不断拓展应用空间。在今年的两会期间,新华社已经推出了全球第一个3D版的虚拟主播;今年的六一儿童节之际,腾讯AI实验室也推出了虚拟歌手AI艾灵,它是基于人工智能模型实现的,可以基于AI模型实现作词和演唱,从而为小朋友带来快乐。此外,还可以基于AI合成相应的虚拟教师,让数字教学更加有互动性。总之,“数字人”技术在不断拓展应用的空间和领域,未来的发展令人期待。

图片:虚拟歌手AI艾灵 来源:腾讯AI Lab微信号

       第三,深度合成技术也开始在一些真正向善的领域得到应用,发挥科技向善的作用。除了泛娱乐、数字内容、教育等领域,在一些涉及社会性问题的领域,深度合成也有很大的应用空间,可以发挥出科技向善的力量。比如说深度合成可以广泛应用于医疗健康,国外的语音合成公司Lyrebird就为渐冻症患者设计了一套新的语音合成系统,以往患者只能用机器的声音进行交流,但新系统可以基于患者的真实声音来合成语音,从而让患者重新使用自己的声音和别人进行交流。此外,“深度合成”技术可实现人脸重现,可以帮助老年痴呆症患者与他们可能记得的年轻面孔或者逝去的亲人进行互动。

       另外,在医疗领域还可以用合成数据训练AI系统。因为医疗AI系的训练和开发需要大量的数据,可能现实中的数据满足不了医疗AI的数据使用需求,或者用真实的病人数据可能带来隐私保护问题,而深度合成技术生成的数据已经非常接近于真实,可以为医疗AI提供必须的训练数据,解决隐私保护、数据不足等问题。可以说,不断发展的创新科技,和我们人类不断提出的创新需求,确实在推动整个经济社会的快速发展。这样一个现代文明时代,给我们带来了无穷无尽的想象空间。

 

构建良好治理框架,促进“深度合成”技术妥善应用和向上向善发展

       最后,谈一下深度合成带来的风险和如何治理的问题。深度合成技术不仅降低创作门槛,激发新形式的创造,还能以多种方式造福社会。但另一方面,深度合成技术也可能带来新的风险挑战。“deepfake”这个概念在一开始之所以“名噪一时”,某种程度上是因为不法分子通过深度合成技术,伪造了虚假的或是真假难辨的图片、音视频等来进行一些非法活动,包括色情报复、商业诋毁、假冒身份、个人信息非法获取等等。就像去年有人利用英国某能源公司在德国母公司的CEO的声音,通过电话诈骗骗走了大概22万欧元,这是典型的利用AI假冒别人身份的行为。
       目前全球都在探索能够通过一种什么样的方式,既能够保障这样一个技术的稳步发展,同时又能够规避它所可能带来的一些负面问题。所以我们看到,国外在积极探索相关立法,采取了较为包容审慎的立法,没有一刀切地禁止该技术的应用,避免阻碍“深度合成”技术的正向应用与创新。我们在深度合成的研究报告里面对美国、欧盟等国外的一些立法举措进行了梳理,主要有五个方面的措施:
       第一,要求深度合成和人工智能技术的使用不得误导大众。例如,当AI机器人以商业或政治目的与人交流或互动时,必须披露其人工智能身份。
       第二,为深度合成的应用划定红线。不能将深度合成技术应用于政治干扰、淫秽色情、假冒身份等非法行为和活动。
       第三,要求深度合成的内容制作者承担披露的义务。采取嵌入数字水印、文字、语音标识等方式披露、标记合成信息后,才可将深度合成内容放置于网络上传播。
       第四,呼吁研究开发包括深度合成在内的图像、音视频操纵技术的检测识别和反制技术。
       第五,从隐私和个人信息保护的角度规范深度合成技术,要求遵守相关要求,例如,GDPR将可以适用于那些可能被用于制作深度合成内容的公民图片和声音,或是网络平台发布的换脸软件产品中潜在的个人隐私泄露问题。
       我们国家在过去一两年里也在积极回应深度合成技术带来的问题,我在这里简要梳理了相关立法的时间轴。2019年5月,《数据安全管理办法(征求意见稿)》要求对自动合成的新闻、博文、帖子、评论等信息都要标明“合成”字样。同年11月,由网信办、文旅部、广电总局出台的《网络音视频信息服务管理规定》也明确要求开展安全评估,对于非真实的音视频信息进行标识,禁止基于深度学习的虚假新闻信息,同时要求平台部署鉴别技术,建立辟谣机制。同年12月,网信办发布的《网络信息内容生态治理规定》也明确规定,禁止利用深度学习技术从事法律、行政法规禁止的活动。特别值得一提的是,今年5月份通过的《民法典》在人格权编也规定,禁止利用信息技术手段伪造等方式侵害他人的肖像权和声音。这也意味着未来在“数字人”、语音合成等相关应用上,使用明星的肖像和声音需要先获得授权。这些规定能够有效防范深度合成技术的滥用风险,并给受害人提供必要的救济。以上是我们国家立法的基本情况,应该说是比较包容审慎的,这和今年政府工作报告提出的思路比较吻合,本着鼓励创新,包容审慎的原则,制定新兴产业的监管规则,引导和促进新兴技术和产业健康发展。
       最后,在全球化的今天,我们面临人工智能、区块链等通用型新技术所带来的通用型问题,需要构建一个良好的治理框架,为新技术全球治理贡献中国智慧。而深度合成是一种能够给个人和社会带来多方面福祉的人工智能应用,为了促进其妥善应用和向上向善发展,我们需要构建多层次的治理体系。可以从四个维度着眼。
       第一个维度,法律方面,立法和监管应该是鼓励创新、包容审慎的,避免一刀切的管理模式,应该采取细分场景、细分类型来进行分类监管,避免矫枉过正,挫伤技术发展应用,扼杀技术的潜在社会福祉。
       第二个维度,技术方面,技术带来的问题往往还要通过技术的方式解决,目前国内外的互联网企业已在积极开发部署鉴别技术和溯源技术,比如对网络信息是否属于深度合成进行自动的检测识别,对深度合成的信息进行溯源标记,等等。通过这些技术方式也能确保技术安全应用。
       第三个维度,行业自律方面,可以通过行业公约的制定,标准的制定,以及伦理指南的制定来营造比较好的行业发展氛围。同时,各科技公司也可以去探索一种自发的伦理审查机制,比如成立伦理审查委员会,对深度合成以及其他人工智能技术应用所可能带来的新的社会伦理风险进行把控。
       第四个维度,公众教育方面,就新技术治理而言,公众教育是必不可少的一环,需要加强社会公众的数字素养和媒体素养教育,提高网络用户的信息分辨能力和警惕防范意识。当然,对于人工智能技术人员和从业者,也需要加强科技伦理教育,使其更加注重人工智能产品的社会伦理影响并采取防范措施,能够更加主动、自觉防范深度合成等人工智能技术可能带来的负面问题发生。
       以上就是我今天分享的全部内容,谢谢大家的耐心聆听。