趋势1:深度学习走向多模态融合

|2021科技应用趋势 作者:腾讯研究院 2021-01-14

      随着算力的提升,数据的丰富,深度学习应用近年来实现了重大突破。机器通过大量数据的反复训练,提升了在不同感知场景中的“实用性”,助力产业智能化升级。

      深度学习主要包括计算机视觉、语音、知识图谱和自然语言处理等领域。以计算机视觉为例,目前已广泛应用于人脸识别、工业视觉、OCR、内容理解等应用场景。随着计算机视觉技术精度和成熟度的提高,正不断渗透到娱乐、医疗、新零售等更多重点应用场景,推动技术变革和用户体验提升。例如,在泛娱乐领域,以计算机视觉为基础的人脸检测、人脸关键点定位、人脸融合以及人像分割等AI视觉技术,通过对泛娱乐场景各类基础数据的挖掘整合,打造出多项泛娱乐人像特效应用,为泛娱乐行业用户提供各类新奇酷炫的AI视觉特效和娱乐体验。在抗击疫情方面,计算机视觉帮助进行口罩遮挡下的人脸检测;依托人脸比对和活体检测技术构建的全场景人脸核身解决方案,有效解决了用户远程实名制核身验证等难题。

      依托技术成熟和先发行业的经验积累,深度学习技术正在拓展到更广阔的产业领域,并通过搭建深度学习平台提速AI应用开发,提高落地速度。同时,深度学习技术本身,也正在向多模态融合、认知智能、更安全和可解释的AI迈进。

      当前,深度学习正从语音、文字、图像等单模态向多模态智能发展。即通过对听觉、视觉,甚至未来对嗅觉、味觉、心理等难以量化的信号开展多个模态的融合分析,将加强高阶认知技能开发,推进深度学习从感知智能升级为认知智能。多模态融合技术还可以实现对人体姿态、表情和功能等的模拟仿真,打造高度拟人化的数字虚拟人,创造全新的人机交互方式。从端到端打通各个模态之间的关系,可以形成真正多维度交互的智能机器,从而增强对功能属性、物理关系、因果逻辑、动机预测等认知的逻辑推断,让感知智能升级为认知智能。

      此外,从应用安全出发,深度学习还需进一步提升面临对抗攻击时的防御能力。对抗攻击通过施加人类视觉或听觉无法识别的轻微扰动,就可以使正常训练的模型输出置信度很高的错误预测。在深度模型广泛应用的今天,随着对大型数据集的依赖越来越大,需要更多关注深度模型的脆弱性。很多高效的方法已经被提出,用于提升深度模型的可解释性和鲁棒性,特别是对现实物理场景的攻击和防御,是未来研究的重点之一。此外,面对深度合成等技术带来的潜在问题与风险,数字取证技术将有效遏制AI的滥用。近年来,大量的人脸编辑检测算法被提出,一定程度上遏制了AI技术的滥用,提升了人工智能的应用安全。但取证算法对未知伪造算法的检测能力还有待进一步加强。如何提升取证算法对不同人脸伪造算法的鲁棒性,也是未来研究的重点。

前沿杂志
互联网前沿61

2022年,从引爆AI作画领域的DALL-E 2、Stable Diffusion等AI模型,到以ChatGPT为代表的接近人类水平的对话机器人,AIGC不断刷爆网络,其强大的内容生成能力给人们带来了巨大的震撼。

2023-05-12

全站精选