趋势1：深度学习走向多模态融合

随着算力的提升，数据的丰富，深度学习应用近年来实现了重大突破。机器通过大量数据的反复训练，提升了在不同感知场景中的“实用性”，助力产业智能化升级。

深度学习主要包括计算机视觉、语音、知识图谱和自然语言处理等领域。以计算机视觉为例，目前已广泛应用于人脸识别、工业视觉、OCR、内容理解等应用场景。随着计算机视觉技术精度和成熟度的提高，正不断渗透到娱乐、医疗、新零售等更多重点应用场景，推动技术变革和用户体验提升。例如，在泛娱乐领域，以计算机视觉为基础的人脸检测、人脸关键点定位、人脸融合以及人像分割等AI视觉技术，通过对泛娱乐场景各类基础数据的挖掘整合，打造出多项泛娱乐人像特效应用，为泛娱乐行业用户提供各类新奇酷炫的AI视觉特效和娱乐体验。在抗击疫情方面，计算机视觉帮助进行口罩遮挡下的人脸检测；依托人脸比对和活体检测技术构建的全场景人脸核身解决方案，有效解决了用户远程实名制核身验证等难题。

依托技术成熟和先发行业的经验积累，深度学习技术正在拓展到更广阔的产业领域，并通过搭建深度学习平台提速AI应用开发，提高落地速度。同时，深度学习技术本身，也正在向多模态融合、认知智能、更安全和可解释的AI迈进。

当前，深度学习正从语音、文字、图像等单模态向多模态智能发展。即通过对听觉、视觉，甚至未来对嗅觉、味觉、心理等难以量化的信号开展多个模态的融合分析，将加强高阶认知技能开发，推进深度学习从感知智能升级为认知智能。多模态融合技术还可以实现对人体姿态、表情和功能等的模拟仿真，打造高度拟人化的数字虚拟人，创造全新的人机交互方式。从端到端打通各个模态之间的关系，可以形成真正多维度交互的智能机器，从而增强对功能属性、物理关系、因果逻辑、动机预测等认知的逻辑推断，让感知智能升级为认知智能。

此外，从应用安全出发，深度学习还需进一步提升面临对抗攻击时的防御能力。对抗攻击通过施加人类视觉或听觉无法识别的轻微扰动，就可以使正常训练的模型输出置信度很高的错误预测。在深度模型广泛应用的今天，随着对大型数据集的依赖越来越大，需要更多关注深度模型的脆弱性。很多高效的方法已经被提出，用于提升深度模型的可解释性和鲁棒性，特别是对现实物理场景的攻击和防御，是未来研究的重点之一。此外，面对深度合成等技术带来的潜在问题与风险，数字取证技术将有效遏制AI的滥用。近年来，大量的人脸编辑检测算法被提出，一定程度上遏制了AI技术的滥用，提升了人工智能的应用安全。但取证算法对未知伪造算法的检测能力还有待进一步加强。如何提升取证算法对不同人脸伪造算法的鲁棒性，也是未来研究的重点。