6月22日晚,由腾讯研究院、腾讯优图实验室、腾讯科协联合主办的“深度合成技术应用与治理研讨会”在线上召开。此次研讨会聚焦“深度合成”技术,围绕“深度合成”的技术趋势、应用前景、挑战应对以及伦理治理等议题进行了深度研讨。此次研讨会的圆桌环节邀请了清华大学新闻与传播学院常务副院长陈昌凤,中国人民大学未来法治研究院执行院长张吉豫,科技部新一代人工智能发展研究中心副主任徐峰,艾瑞咨询泛娱乐研究主任郭成杰,腾讯优图实验室专家研究员、总监李季檩,由腾讯研究院高级研究员曹建峰主持,进行了跨学科、跨领域的研讨。腾讯研究院秘书长张钦坤对会议进行了总结。
深度合成技术应用场景广泛,长期发展需更好结合现有商业和服务模式
目前,基于AI的深度合成技术广泛应用于社交、影视、医疗、虚拟现实等诸多领域,其不仅降低创作门槛,激发新形式的创造,还能以多种方式造福社会。其中,数字虚拟人(digital person)综合运用了多种AI技术和方法,已成为深度合成技术的重要发展方向。在深度合成的行业应用现状与前景方面,郭成杰分享了三点看法。
第一,AI换脸APP引发了一定的行业热度,但体验相对单一,未来还需要跟更多落地化的商业应用做结合才能产生持续性的发展。在文娱和社交领域,基于深度合成技术的换脸APP因其独特的功能,一度风靡。但由于功能限制,用户体验单调,目前还在尝鲜期,没有找到能够结合好的盈利模式的完整商业模式。该应用在实现商业落地的探索中,需要尝试开发更多的功能,跟更多落地化的商业应用作进一步结合,同时解决目前存在的法律风险问题,引进良好的盈利策略,形成完整的商业模式。
第二,深度合成可以与影视行业更多地结合。一方面,深度合成技术可以大幅降低合成影像的技术门槛,以较低的成本实现影像的特效制作,助力创作;另一方面,利用AI换脸技术可以解决影视作品因故不能上线的问题,避免演员身故、生病或丑闻等因素对影视作品带来的消极影响。虽然国内一些影视剧也在尝试AI换脸,但对影视所要求的高品质而言,换脸的效果还有待提升。相信随着技术的发展,AI会有更好的表现,也能够跟影视行业有更好的匹配。
第三,数字虚拟人也是值得关注的方向,具有非常大的延展性。目前已经应用到比较多的领域,如虚拟主持、虚拟主播等。而且,数字虚拟人也在与智能家居、IoT做结合,让用户与智能家居的交互更加自然真实,提升智能家居服务的体验。未来在教育、旅游、公共场所咨询等需要较多重复性人力接待、播报或者讲解的场合,都可以用数字虚拟人做一些场景。未来,随着深度合成技术的发展,行业可以更好地结合现有的商业模式和服务模式,利用深度合成提升服务体验。
神经网络根本性改变了数字合成技术,创新性的深度合成不断涌现
李季檩介绍了深度合成技术的技术原理、发展历程。技术原理方面,深度合成背后的技术包括自动编码器、生成对抗网络。典型的深度合成是以输入一个随机向量开始的,生成器根据这个随机向量可以合成出一张图像,会与一张真实的图像一起输入鉴别器,进行差异的计算,通过训练最终会达到一个均衡状态,此时合成图像足够逼真,让鉴别器难以区分其和真实图像之间的差异。
这些根本上是源自于神经网络的特性,即一种映射的能力。这种能力会让人联想到神奇的魔法盒,它可以将一件物品变成任何你想要的任何一件物品。深度网络虽然现在对人类来说是黑盒模型,但它更是数字世界的魔法盒,这个魔法盒的魔力才刚刚被打开。
在技术发展趋势方面,需要先往回看这个技术从哪里来,然后才能看到它往哪里去。在深度合成技术兴起之前,照相机对物理世界的真实记录,让人们可以对数字图像进行修改、再创作;图形学技术在电影工业中的发展应用,让人们可以在电影以及VR、AR中感受到数字合成的逼真世界。这些技术可统称为数字合成技术。这些基于图像和视频的二次创作,极大地满足了大众的视听消费需求。然而数字合成的成本很高,音视频内容再创作的门槛很高,只有极专业的人,用极专业的工具才能合成出逼真的音视频内容。但随着深度合成的快速发展,尤其是生成对抗网络的横空出世,让数字合成有了根本性的改变。主要体现在三个方面。
第一,合成工具的进化。传统数字合成需要大量高级工具和复杂操作,现在只需一键式的端到端合成,这是生产力的巨大飞跃。拿图像为例,原来的路径首先需要学习专业的多媒体处理课程,然后耗费很多时间精通几个专业的数字合成软件,接到需求之后做定制方案,搜集各种素材,通过软件一遍一遍修改,直到主观效果达到满意为止,这也是现在电影工业里面常见的流程。但是现在只需要下载开源的合成软件,瞬间就可以自动生成令人满意的图像,并实现批量的、可复制化的合成。
第二,合成的效果越来越难分辨真假。一幅真实图像是由光线、距离、姿态、形状、材质、观察者的视角、光学传感器的特性等等大量真实的物理因素共同作用的结果。人在做这种编辑和合成时,无法考虑如此多的变量,即使使用专业的建模工具,传统的数字合成也会不可避免地出现一些瑕疵,一般只能以大块的区域为单位进行合成或者编辑,很难对单个像素进行精确的合成和修改。而深度合成是基于深度网络和大量数据,在训练过程中上述大量物理因素会蕴含在深度网络的参数之中,算法可以同时考虑这些因素的影响,精确进行单个像素的合成。即使局部出现了瑕疵,算法在训练过程中也可以不断优化和修补,直至达到逼真的程度。
第三,可以实现创新性的合成。传统的合成无法将所有头脑中的想象落实到操作工具上,变成可以实际操作的步骤。例如,在游戏中将真实用户的照片与游戏角色进行融合,这属于跨界融合,用传统的方法很难做出来,但用深度合成的方法可以毫无违和感地实现,光影、轮廓都可以栩栩如生。最后,从效果上看,未来的深度合成技术将会做到更高的分辨率,场景也会更加丰富,对于用户而言技术门槛将更低。从应用上看,深度合成技术将与各种多维信息、视频信息融合,也可以实现合成之后与人类进行互动,这些发展应用在数字虚拟人、VR内容等产业上,可能会取得一些重大的突破。
包容审慎监管,为深度合成技术发展留出空间
深度合成并非关于“伪造”和“欺骗”的技术,而是极富创造力和突破性的技术,虽然它像其他任何技术一样,也催生了一系列必须面对的难题,但这并不会磨灭这一技术给社会带来的进步。就如何更好地规范深度合成技术应用,张吉豫分享了三点看法。
第一,在基本理念上,应遵循包容审慎的监管原则。我们这几年在应对新技术、新业态的发展问题上面,采取了包容审慎的政策理念。例如,今年起实施的《优化营商环境条例》,第55条提到包容审慎监管的原则,指出政府以及有关部门应该按照鼓励创新的原则对新技术、新产业、新业态、新模式实行包容审慎监管。对于深度合成,也需要进行包容审慎监管。李克强总理在2018年考察市场监管总局并主持召开座谈会时曾具体阐释过“包容审慎”监管之含义:“所谓‘包容’,就是对那些未知大于已知的新业态采取包容态度,只要它不触碰安全底线。所谓‘审慎’有两层含义:一是当新业态刚出现还看不准的时候,不要一上来就‘管死’,而要给它一个‘观察期’;二是严守安全底线,对谋财害命、坑蒙拐骗、假冒伪劣、侵犯知识产权等行为,不管是传统业态还是新业态都要采取严厉监管措施,坚决依法打击。”
第二,在基本原则之下,具体法律和监管应设置必要法律底线,并为深度合成技术发展留出空间。现有的立法为深度合成技术设置了一些必要的法律底线,规定了适当的平台责任,同时推动法律和技术的结合。例如,《民法典》的人格权编为深度合成技术应用提出了公民权益保护的具体要求,扩展了肖像权方面的规定,以及提出对声音的保护。这说明新的科技会催生新的权利要求,而人格权编规定的开放性的人格权可以更好应对科技催生的新型人格利益保护,但立法不会阻碍技术发展应用。平台责任方面,《民法典》的通知-必要措施规则也蕴含了对网络服务提供者进行分层、分类的责任分配的基本原则。此外,《网络信息内容生态治理规定》里面提到不得利用深度合成等从事法律禁止的活动,在强调底线的同时,也表示了允许和鼓励深度合成等新技术发展的态度。《网络音视频信息服务管理规定》要求对非真实的音视频信息进行标识,表明需要结合技术进行一定的治理,充分发挥掌握技术的平台企业的主观能动性,实现共建、共治、共享的治理理念。
第三,对深度合成等互联网新技术的治理和未来法治建设,需要遵循几个基本的理念和方向。一是要以人为本。这是法律的基本原则和价值立场,也充分体现在《民法典》人格权编相应的规则中,尤其是对人格权的法定性和开放性的平衡。
二是法律与技术相结合。智能社会的治理是需要法治与技术治理进行有机统一、协调结合的。一方面,法律要对技术的发展予以很好的关照;另一方面,立法实践中已有一些探索,包括技术保护措施、平台注意义务或免责条件与技术发展的情况相结合、一些领域和标准认证相结合等,但技术与法律结合不能是任意的,而应建立在正当性、必要性以及充分可行性的论证基础之上。
三是信用机制。新技术发展初期可能存在公共风险,比如深度合成技术也可能存在不合理的使用。所以认证溯源机制可能是保证未来发展的重要路径,也是构建信用社会的必要发展途径。
四是强调共建、共治、共享的治理理念。在智能社会的建设过程中,法治建设需要调动掌握先进技术企业的积极性、先进性,调动社会主体参与建设,同时要求法律人克服专业知识的限制,保持对新技术发展的关注。保证法治在必要时能够突破旧机制和旧思维的束缚,引导技术更好地面向未来。
用技术的发展解决技术带来的问题
对于技术带来的问题,除了法律应对,也需要探索技术上的解决方案。李季檩从技术工具支撑的角度,分享了对技术安全的看法。第一,从技术上说,深度合成是一个单点的技术,可以从整个系统的技术层面,复用现有数字社会中比较成熟的技术防御手段。第二,针对特定场景定制特殊的防御手段,在日常的技术演练中,优图已经有比较切身的体会和丰富的经验。
例如,近几年深度合成的方法进展非常快,越来越逼真,网络上开始出现真假难辨的视频,优图迅速在技术上跟进。一方面,优图尝试合成具有逼真效果的视频;另一方面,去尝试检测这类效果的视频。有些视频可以骗过我们的眼睛,但是在极度精细的像素层面,和相机拍摄的真实图像还是有所不同。真实世界的光线从镜头进入到传感器,经过光电转换、模拟信号转换数字信号再进行若干图像处理,才得到最终的照片,这其中包含了光学、电路、温度等各种真实因素引起的噪音和退化,目前生成对抗网络还不能精确合成这些信息。因此,我们制作了大量的深度合成数据,用深度网络来学习真实视频和合成视频的差异。学界有一项专门评估深度合成的榜单,优图的检测模型刷新了记录。这些检测能力也会通过云计算的方式对外输出,用户上传视频时就可以判断它是否是合成的。因此,深度合成并不可怕,要用技术的发展解决技术的问题,深度合成的魔力来自于深度学习,可以约束这种魔力的也将是深度学习。
深度合成影响媒体信任,需强化用户的数字素养
陈昌凤指出,深度合成是英文里“合成媒体”的下位概念,作为一种新形式的创造,会给媒体带来很大影响,在讽刺、电影等非新闻类的大众传播以及历史新闻等方面有很多应用。比如,利用深度合成技术把静态的历史新闻做成接近事实的动态视频,这方面的价值是非常大的。此外深度合成也有助于核实一些事实。对于深度合成对媒体信任的影响,需要采取多利益相关方的方式来治理,而平台的技术治理是一个重要方面,Facebook、Twitter等都在对内容进行事实核查。最后,用户的媒介素养或者说技术素养在数字时代也特别重要,用户需要有一种自觉的警醒,具有批判性思维(critical thinking)。
对于媒体信任问题,曹建峰指出,深度合成技术将如何影响大众的行为和认知,目前还没有足够的研究支持,但是它提示我们,进入人工智能大众化时期,对大众信息分辨能力的培养也是治理的重要一环。媒体信任的塑造绝对不仅仅是封杀某一技术可以达到的,需要从内容的生产、传播、接收等多方面进行规范。深度合成技术的出现已经让我们意识到了眼见不一定为“实”,这是加强公众信息辨别能力的一个重要契机。相信社会能很好地适应并使用这一技术。
构建多维度治理,更好引导深度合成技术发展和应用
深度合成技术的健康有序发展,也离不开对治理与伦理的关注。对此,徐峰谈了五点看法。第一,关于新技术发展与治理的关系,两者并不对立,治理是为了更好推动人工智能等新技术的健康发展。在发展新技术的同时,也需要做好政策储备和相应的应对措施。第二,深度合成等人工智能技术的治理是一个系统性工作,不能泛泛地谈治理,既需要有大的治理原则和框架,也需要针对具体技术、应用和领域提出针对性的治理措施。第三,从具体治理手段上看,既需要技术制衡、法律约束、市场准入、行业监管等治理措施更好监管、规范、引导技术发展和应用,也需要行业和企业自律,比如腾讯提出的科技向善等。第四,需要通过科普等方式帮助公众更好地理解和认识新技术及其应用,才不至于使公众对新技术产生一些偏见,反过来影响新技术本身的发展。第五,人工智能治理还需要加强国际合作,针对全球人工智能重大国际共性问题进行研究,共同应对全球性挑战。
曹建峰指出,深度合成和其他人工智能技术的治理也需要权衡、兼顾四个目标:数字技术和数字市场的发展与创新;消费者权益保护尤其是个人数据和隐私保护;商业利益;以及公共利益和国家利益。避免顾此失彼,给技术和产业发展带来不利影响。
张吉豫也指出,对于深度合成技术,需要构建多个维度的共同治理,而不仅仅依照法律,也包括伦理治理。伦理治理的一个重要方面就是培养技术人员的伦理意识,以及加强公民的数字素养。未来,法律与伦理会更好地衔接,科技公司及其人员在伦理意识和准则的引导下开发、提供解决方案,这可以转化为智能时代的法理,为科技向善提供更好的保障,所以伦理与法理是一个发展互动的关系。此外,企业不能局限于满足法律的最低门槛,也需要积极主动采取伦理方面的治理措施,比如成立内部的伦理委员会,对技术和产品进行伦理评估,管控伦理风险,并及时提出应对方案。
张钦坤最后提出了三点总结。第一,对于深度合成以及其他的创新技术,需要以坚持创新、鼓励发展为导向,这一点无论是从国家竞争力来讲,还是从人类社会发展规律上来讲都是符合实际需求的。第二,前沿科技的发展,需要坚持安全的底线,坚持不侵害他人合法权益的底线。技术和商业模式只有保持一定的克制,不触及底线,不试探底线,才能给整个行业带来更大的发展福利。第三,坚持全球化的视野,现在整个科技创新和制度探索进入了无人区,没有先例可循,需要形成全球共识和共识性规则。