文/陆诗雨 腾讯研究院研究员
【导语】李世石投子认输AlphaGO,人类的另一种胜利得到彰显。棋局三定,曲折中长,李擅布局,机器见招拆招,李棋果断,机器的反应不用秒计算。体力、情绪上的稳定似乎成为决定这场实际大赛成败的关键。然而一场棋局引来上千万中国网民的在线围观并非仅为一断人机输赢,棋赛内外处处是人们对于人工智能、机器学习、深度学习等新技术的好奇与期待。
“深度学习”模仿了人类的神经元通过数据自动学习数据之间的关联关系
什么是深度学习?
深度学习是机器学习的一个分支。机器学习通过数据自动挖掘数据之间的关联关系的一种技术,比如在一组图像中自动识别出人和小动物这样的类
别信息。
然而传统的机器学习使用非常基础的模型,它们中的大多数是单层的线性模型,这使得它不能处理复杂的识别任务。
深度学习突破了这个瓶颈,它使用多层人工神经网络构建复杂的非线性模型。在这里“多层”是一个关键词,所谓的“层”指的就是一次线性或非线性运算,多层结构使得数据得到了多次运算的叠加,多层运算使得深度学习可以挖掘数据之间更加复杂的关联关系。
速览深度学习发展之路
深度学习在发展之处与人工神经网络相互捆绑。
早在上世纪80年代,Yann LeCun和Geoffrey Hinton这两位深度学习的开山鼻祖就开始了深度学习的基础研究。
但是由于当时没有大规模的数据和高效率的云计算平台,深度学习的效果欠佳,并没有受到足够的重视。
可以说,90年代,刚刚萌芽的深度学习一度沉寂了。
真正让深度学习这一领域真正繁盛起来的不得不提2006年Hinton在《Science》上发表了一篇具有开创性文章《Reducing the dimensionality of data with neural networks》,在这篇文章以及后续的一系列论文中, Hinton研究组重新使用深层的人工神经网络用于数据分析, 并取得了超乎当时想象的巨大提高。
从这之后无论是学术界、还是产业界都加大了对深度学习的投入,并取得了很大的进展。究其原因,可以归结为两点:
第一是大数据真正成为可以利用的资源,这样深度学习有了珍贵和“原材料”;第二是计算机的计算能力在这段时间中提升了好几个数量级。有了这两项基础,才有足够能力构建规模非常大的神经网络。
在这一段时间,深受瞩目的两大赛事可以代表这一跨越性的发展。第一是人脸验证比赛,第二是imagenet。这两个比赛可以被看做是AlphaGo围棋比赛的前身,在这些比赛中,深度学习的技术使得机器的识别能力已经在某种程度上超过了人类,展示了深度学习惊人的潜力。
深度学习应用的三大领域
(一)计算机视觉
【安防】安防是深度学习应用最重要的领域之一,或许也是应用最广泛和成熟的领域。近年来海关、交通要输等重要安防监控场所已经有比较成熟的产品投入使用。比如深圳海关罗湖口岸采用了动态人脸监控识别系统,实现了时时的智能人脸抓拍与识别及报警、动态水客分析、抓拍人像库检索、即时人脸入库,以及实时的监控报警信息统计等功能;再比如人脸识别系统已在部署江北机场70个验证口,利用人脸识别技术的算法识别准确率达93.2%,而人眼的平均识别率仅为72.7%。
国内主攻安防领域的公司中亦不乏深度学习应用的佼佼者,近期中央电视台上播出了一段由格灵深瞳推出的浩目行为分析仪,可以自动追踪每个人的行为轨迹,包括识别每个人的工作,并对一些危险动作进行报警。
【金融】从去年7月开始,人脸识别技术已逐步在支付宝实名认证、重置密码、换绑手机、风险支付校验等功能中应用。在日本,基于图像识别的深层学习技术,投资者很容易地从存档里自动获取相关的外汇交易图表,普通人也可以知道明星交易员是如何做交易的,从他们的经验中学习并作出更准确的交易。
【互联网】说起最近红火的拍照软件,几乎每个爱美的女生都用过或听过faceU,通过计算机视觉的技术,实时识别人脸的位置,并作虚拟的化妆。互联网领域深度学习最重要应用点显然还包括搜索技术,BAT或其投资公司几乎都在图像搜索、视频搜索、广告搜索上应用了深度学习的技术,大大提高了搜索的准确率。
所以,并不难解释为什么一贯多金的互联网公司那么热衷于招揽深度领域的大牛。事实上诸多深度学习的资深研究者已经吸纳于互联网公司麾下,将学术价值全面展开应用。
【VR&AR】虚拟现实与增强现实这两块技术的基础之一就是计算机识别。
只有首先定位准了场景中的物体,才能把把虚拟的画面旋绕到了画面上,深度学习可以帮助提高性能,使得VR技术能够准确识别物体。
李开复最近发表的一篇讲话非常受关注,在讲话中他提到目前做深度学习的人工智能博士生,现在一毕业就能拿到 200 到 300 万美金的年收入的 offer,这是有史以来没有发生过的。这为什么会发生呢?第一,是因为真正懂深度学习的人现在还不是很多,所以供需不平衡。 第二,是因为很值。Google 拿到这样的人,他就可以马上用他赚一百倍的钱。第三,是因为涉及竞争。Google 会很不希望这样的人落入他的竞争对手怀中。
这样的场景或许在不远的将来也会同样发生在中国,对深度学习优秀资源渴求也将成指数型增长。
(二)语音识别
在深度学习被提出后,语音识别的技术同样得到了飞跃性的发展,也进入了我们每个人的生活中,比如很多人都用的siri,正是以深度学习为基础的;当谷歌在安卓手机操作系统中采用了以深度学习为基础的语音识别技术时,单词错误大幅度降低25%。
作为国内公司在语音识别方面的翘楚,科大讯飞在SC15上发布了一套面向深度学习、基于AlteraArria 10 FPGA平台、采用OpenCL开发语言进行并行化设计和优化的深度学习DNN的语音识别方案。
我们可以大胆想象,如果语音识别技术提高到了一定的程度,那么机器就可以与人一样得表达,它能理解你的意思,如朋友一般和你对话,人们甚至分不清楚自己交谈的对象是人还是机器。语音识别的技术发展也或许会影响我们的输入习惯,到那时键盘、鼠标等物件或许将成为过去时,更加便捷、准确的输入方式将大大提升工作效率。
(三)自然语言处理
随着深度学习的发展,自然语言处理的性能也得到了巨大的提升。在深度学习得以应用之前,自然语言处理的技术很难处理语意复杂,富含嵌套结构、指代复杂、有复杂的上下文关联的文本。
在深度学习深入进入自然语言处理领域之后,通过利用数量级巨大的互联网数据,通过多层复杂模型自动学习语法关系,使得语义识别的性能大大提升。比如微软的小冰,深度学习的技术使得小冰可以理解人的语言表达习惯,机器与人之间的交流更近一步。
未来已来,深度学习将如何改变未来?
(一)自动驾驶
自动驾驶的核心技术之一就是深度学习。自动驾驶的汽车需要能够自动识别车道线、交通标志,以及路面上其他车辆和人员的信息,并且做出像人一样智能的决策,比如并线、转弯,甚至给校车让道。自动驾驶当中有非常多复杂的智能问题,而这些问题恰恰是深度学习擅长解决的。
目前自动驾驶技术的领跑者google, 从09年开始研究,并有样车在加州的公路上进行了上百万英里的测试。 在国内百度的自动驾驶样车,已经在北京五环路上短距离的测试,效果基本能够保障行车的安全。另外,高校的相关研究也如火如荼,姜岩老师所带领的自动驾驶车辆已经可以在没有司机的干预下绕北京三环路开一圈。
无论是在美国还是中国,都没有公司推出自动驾驶的正式产品,包括法律问题在内的一系列研究工作还在继续,到自动驾驶真正能够应用到每个人的生活中还有较长的一段路要走。
但是自动驾驶的市场无疑是巨大的,一旦某一天自动驾驶成为人人得以共享的现实,那么届时人类司机便会如骆驼祥子一般退出历史舞台。汽车可以脱离人类的干预,自动将人从A地送往B地,送完以后马上又能接送下一位乘客,循环作业,效率更高,成本更低。
如果把进步的尺度放到5-10年,自动驾驶将从更大范围影响我们的生活,或许有一天,我们将不再需要“拥有”一辆汽车。路面上奔流不息的无人驾驶车将比私家车更能满足人们的出行需求。
(二)智能机器人
或许每个孩子都会梦想拥有有一个大白,它能理解孩子说的话,教你学习,陪你玩耍,还能 告诉家长孩子当前身体状态、心理状态以及是否安全。这一切或许在已经慢慢靠近的未来都不再是幻想。
google旗下的波士顿动力公司,通过一段网络视频曝露了一个会走会搬东西的机器人,甚至在遇到袭击时也能自己爬起来重新完成设定任务。随着深度学习在智能机器人领域不断深入,机器人或将应用到军事、探险领域,以及体力劳动的场景中,提升单一重复劳动的效率。
(三)智能医疗
深度学习在智能医疗领域的进取已经取得了非常丰富的数据基础,实际上,我们当前的很多医疗设备都可以保存患者的健康数据,比如病例信息、过往服药等信息,这为深度学习挖掘医疗关联数据提供了原材料。
我们可以大胆预测,在深度学习深入医疗领域的将来,自动诊疗系统或许可以在一定程度上取代医生。特别是一些常见的疾病,自动诊疗系统通过对大量数据的自动学习,诊断并向患者推荐治疗方法和药物。这将大大降低医疗成本,提升服务效率。
更为重要的是,这一进步将使得医疗资源可以实现0成本复制,患者看一些伤风感冒的小病不需要再受限于医生的质量与数量,基于大数据的自动诊疗系统将比医生更懂得望闻问切。这一想象并非天马行空,事实上日常医院接待的患者中有70%-80%为常见疾病,所以这些常见疾病的数据非常大,这使得经过这些数据训练出来的诊断系统也会更加系统、客观。
(四)法律援助系统
在很多时候,律师扮演着与医生相同的觉得,他们对当事人提出一些问题,查看相关法条和历史数据,完成对一个法律事件的判断。在这里同样可以用深度学习的方法,训练着实有效的法律援助系统,来完成一些基本的法律服务和咨询工作。
虽然不能完全代替律师的辩护工作,但是这可以为更多普通百姓提供帮助,至少在某种程度上降低了律师的工作量。IBM在美国已经推出了一套类似的系统,帮助各个公司从事公司破产案件的法律咨询。
(五)天眼系统
影片《速7》中的天眼系统或许就是我们即将走进的未来。
天眼依靠监控摄像头和“人脸识别”技术,确认人的位置和行踪。在游戏“看门狗”中对天眼有更加丰富的想象。
在该游戏同CTOS掌握着全民的信息,控制从交通到生活起居的方方面面,玩家可以领大数据分析精确定位一个人。
截止到笔者的发稿时间,AlphaGo与李世石的人机大战第一场直播结束,上千万的中国网民在线围观这一赛事。我们每个人都生活在当下,也必然走进未来。这个或许让我们觉得陌生,抑或满怀期待的未来正一步一步地向每一个人靠近。
我们有理由相信,以深度学习为代表的人工智能技术将深刻改变人类认识和改造世界的方式。 在不远的未来,人工智能将会像蒸汽机、计算机一样, 成为极大提高人类的生产力的最新革命, 这无疑将改变我们每一个人的生活, 引领人类进入一个新纪元。
这个消息并非人人都喜欢,异化论、机器灭族等论调也许会随着这一轮人机大战再度成为热词,但是历史车轮从未因为人类的惊忧而停止前进。还节的哲学名著《苏菲的世界》对未知充满好奇的小女孩吗?她常常喜欢拿兔子的皮毛作比,庸常的生活让我们在温暖的毛皮深处不想出来,但是站在毛尖的跳蚤必定最早看到迎面而来的朝阳。