大数据似乎在一夜之间迅速走红,它势不可挡地冲击着金融、零售等各个行业。云计算将如何改变计算的世界?未来将有怎样的应用前景?如何解决“信息孤岛”的问题?大数据又将如何提高我们决策的准确性,帮助我们更准确地预测未来?
在2014年7月25日腾讯互联网与社会研究院主办的“大数据连接的未来——2014腾讯互联网与社会研究院高峰论坛”上,芝加哥大学知识实验室主任James A. Evans分享了《大数据的大蓝图》。
芝加哥大学知识实验室主任James A. Evans
大数据的大蓝图
我是James A. Evans,来自芝加哥大学,我自己也是研究数据的学者。我们有一个知识实验室,关注于如何利用大数据,包括从传感器、文本、声音、图片、信号等不同类型的载体中提取信息。我们还研究人和机构在处理数据、做出决定的过程中存在的偏差和限制。最后我们还会做出算法,帮助我们更深入地思考问题。
我的演讲题目叫做“大数据的大蓝图”,我们如何才能通过大数据获取大蓝图?一个非常明显的答案就是把大量的数据存在你的系统中,从微观的,更加深刻的角度来分析这些数据、来支撑未来的决策。但是这个过程并不简单。
为什么会这么说呢?因为我们要分析的这些数据是历史上前所未有的大数据。大家可能觉得,有大数据可以更好地进行微观的、细节的、更加独立的思考。因此,这里我想讲一些大数据如此有用背后的原因,来帮助大家进一步理解和利用其中的限制,然后真正地挖掘出大数据所带来的价值和机会。首先,随着全球网络将人们连接在一起,我们能接触到关于他人的信息越来越多,从众行为也就变得更为容易。举一个我自己研究的例子,我研究的是科学文献体系在互联网时代的转变,也就是从印刷文献,图书馆到在线文献查阅、在线文献引用查询的转变。
根据我们的数据库,有2600万个学术文件都从线下转到了线上,通过对这些文献的研究我们发现,非常讽刺的是这些网上文献的存量越多,大家看这些文献的时间就越短;这些文献越多,相对被引用的文献也就越少,并且引用主要集中于其中的一部分文献。为什么会出现这种现象呢?在互联网之前我们都有自己所谓的品位,比如说有自己的专业领域,我们靠自己的专业知识进行判断。而互联网让我们突破自己的专长,接触更多的领域。
如果你在百度或者Google上搜索某一主题,你会得到关于这个话题的各种各样的数据。但是在这个领域你并没有自己的判断,就只能根据别人的意见去选择那些点击量最大的答案。也就是说,之前你在自己的专业领域有判断,但是现在在非自己专业的领域你会跟随群体的选择。因此,在有了更多的数据之后,我们涉足的领域越来越多,但是关注的主题越来越少。用专业术语来说,人们把这叫做“长尾效应”。这种从众行为是个人的需求,但是现在社交媒体为我们提供了更多关于他人的数据,进一步扩大了这种需求的影响。这就解释了为什么现在媒体变得越来越大,一个明星的粉丝越来越多,以及很多类似的聚合效应。
像Google的PageRank算法,在现代很多的搜索引擎当中都有使用。现在很多网站通过这一算法分析流量来计算局部流行度。这样的算法让外行人越来越容易进入一个领域,也让第一次来到这一领域的外行人,越来越容易地跟随“隐形的大众”。这个现象引发了另一个现象,搜索引擎会自动预测你可能愿意去哪儿,并为你提供指引。这使得我们越来越容易趋同于其他人,甚至是“过去的自己”。在大数据的世界中,我们想要利用这些数据,就会依赖于其他的数据提供者,这样就很容易会被集群化、集中化,也就导致了现在流量的集中化。
这是一个Google的展示页,你可以看到两边和顶端的广告,哪怕自然排名都会跟你期待的兴趣点和所在地理位置相联系,这会更加贴近你的需求。
我们前面也听到了全新的市场营销方案,包括改进、优化我们的预测,了解个人用户的喜好。我想这对于商业有重大的影响,如果我们看看数据服务的提供商,这些数据的渠道、管道,它们做的事情也是类似的,它们把我们推向了未来的云平台。我们最终并不仅仅获取了数据,这些数据还是可接触的、定制的、符合个人需求的。
我想再回过头来看这页,这非常具有挑战性,也非常有意思。王宁刚才也讲到,进行选择之后得到的数据应该是一种革命,它不仅仅是我自己个人的选择,因为这个选择是由算法算出来的,哪怕我们改进了算法。在另外一种情况下我们是否会做出另外一种选择,也是不一定的。
我们自己也在像这个算法一样过滤我们面对的数据。我们过滤了原始数据,限制了进入我们大脑的数据、趋势等,这就好像让我们进入到了一个有“回声”的房间当中,这个“回声”不断得到加强,也就像是对之前预测的一个加强。就像音乐家自己在一个封闭的房间中演奏乐器,“回声”可以通过声音反复得到加强。这里的问题在于我们越来越执着于原来的预期了。
还有一个挑战,就是大数据让我们更容易进行微观思考,略去表层的数据。比如学者、科学家,各种类型的人都会有更多的文件需要阅读,如何才能多阅读40%的文件呢?并不是简单地一字一句去阅读,而是通过搜索和专注重点快速地阅读,来增加我们的阅读量。
更进一步,大数据让我们进行微观思考的另一种方式是,从某种意义上来说,我们只走出第一步,这更容易重新探索过去那些理所应当的事情。比如在这里就是一个美国人乃至全世界人心情的分析。通过几百万条Twitter信息,你会发现人们不工作的时候更高兴,早上更高兴、晚上更高兴。我们周末是很高兴的,星期五也比较高兴,因为周末就要来了。我们并不需要几亿条Twitter来告诉我们这些信息。我们通过这些的信息,就可以做出决定卖什么样的啤酒、卖什么样的产品,我认为这些数据有更大的价值、更大的消费者价值和可能性。
还有一点,我觉得这是不同类型的一种挑战。大数据并没有让事情变得更加容易操作,或者缩小我们思考的范围。事实上可能是相反的,大数据在这样的背景下,针对这个特定的问题,可能让我们想得有点太大了。它可以让我们更容易跳到错误的判断与结论去。
我们最近有一个有趣的结论,我们发现朋友之间的肥胖是可以传染的,使用这种算法,还可以得到身高也是可以传染的,我不知道大家对于这样的说法是否觉得不习惯?但是这种算法告诉我们这是一个实际情况。它代表着什么呢?就是一种可能性。在某种情况下这是一种小数据世界的残留,在小数据世界我们不去深究其背后的东西以保护我们的数据,这有利于我们的测试。这样我们就能够利用数据的力量来解决我们一开始的问题。如果我们不想破坏,结果就只能是一无所获。如果我们抛弃原有的这种传统,这种假装通过数据发现显而易见结论的传统,我们就会有一种全新的方法,我们可以用大数据来构建我们的假设,然后再用其他数据来验证这些假设和答案,这样就能以更宽广的思路去思考。我想这与机器学习有很大的关联,最近出现的一些算法都证明了这一点,同时也得到了一些验证。我觉得这跟数据的输入有关,它也可以把这些问题和提示跟我们进行分享,并且来测试这些答案。
下面我想跟大家分享一下它的可能性,去看一下怎么可以避免这些问题,我们可以进行很好的算法设计来避免问题。大家知道算法会影响到整个世界,也会改变我们的思维,算法也可以允许我们从单一和大量的数据中选择我们想要的信息,可以帮助我们大海捞针,可以帮助我们针对数据问一些问题,而关于这些问题,我们现在还不知道答案。我们从数据中去讨论这些问题,往往就忘了我们最开始问的问题是什么,大数据可以帮助我们创建一个算法的世界,在这里是指整个算法的领域,而不是单一的算法。它不仅仅可以帮助我们去分析现有的问题,而且可以产生一系列的问题,可以去推动科学和技术边界不断扩展。
我这里要给大家举几个例子来展示一下我的想法。一个是一位工程师朋友做的工作,他之前在纽约的IBM研发中心,现在在伊利诺伊大学香槟分校工作,他对一些算法和美食比较感兴趣,他想要去了解人们的美食学。这其中共有3个重要因素,一个是人们从美食中获得的愉悦性,这是比较稳定的,食品的味道怎么样,是让人感到非常高兴还是非常痛苦。另一个就是人们对食品的熟悉程度,这是不一样的,还有食品的新颖性。他没有利用食品的愉悦性这一特征来进行分析,你知道人们的眼睛往往会被顶端的一些物体所吸引,当你去一个地方的时候,你希望能够了解下一刻会发生的事情,他就利用这样的算法产生了一系列的结果,发现有一些食物的配方是非常好的,可以把各种各样的口味结合在一起。这样的话他不仅可以帮助人们销售产品,还有我们这里所谈的,甚至利用大数据来重新设计我们现在的整个世界。
另外一个是麻省理工学院的一位心理学家开展的工作,他和同事分析了各种各样的数据库,他们没有在这些数据库中应用一个特定的模型,而是创建了一个系统来发现结构性的格式,他们创建了可以产生一系列可能的模型,这些科学家还有研究人员并没有限制他们要检测的东西。关于数据的结构,他们允许这样的结构得以建立,然后不断地进行迭代测试。他们发现了一些非常明显,也有一些非常不明显的事情。比如最高法院的大楼可以进行结构的重设,可以调整它的特性。过去表现得比较保守的,现在可以变得更加自由。同时地图呈现的形式也可以进行改变,比如以圆形来呈现。因此,大家可以看到,实际上他们创建了一种假设,对大数据来进行整合,通过在价值链上往上走来检测现有的设想,产生我们比较感兴趣的、要进行测试的问题,这样可以扩大我们的创造力。
最后我要给大家介绍一个我参与的研究。科学是一个体系,那么它是怎么进行思考的?我们对过去50年中的化学反应进行了分析,共有五千万到一亿个化学反应,包含不同的化学品,大的、小的,一些分子,有机的、还有非有机的化学。通过这样的研究,我们发现研究人员往往是以一种传统的方式来做结合,随着时间的推移,他们变得越来越保守。从上世纪70年代到2000年,他们将化学品结合在一起的方式是非常传统的,后来越来越集中化,再后来可以看到这些事情之间的距离越来越短,连接性越来越强。实际上这是超级有效的一种算法,覆盖了整个反应的10%。我们可以识别出更好、最优的或者接近最优的算法。我们可以做得更好,可以和历史上的科学体系所做的正好相反,可以去探索已知的关系。然后我们就会变得越来越具有创新精神,而不那么保守。
为什么人类,还有科学会从这样的一个更优的方法当中偏离出去呢?在这个案例当中科学所存在的体系给他们带来了一定的压力,你需要把产出和过去的文献相比较找到相关性,当一个领域变得更成熟时,对于科学家个体来说,他们要继续往前是很有意义的。
我刚才给大家讲了三个例子,这三个例子主要是要告诉大家大数据不仅仅可以帮助我们改善现在所做的,不仅仅只是把我们所设计的产品进行投放,不仅仅只是能够去检测我们过去的假说,实际上大数据可以改变我们问问题的方式,还有扩展我们问问题的方式。如果我们利用大数据来评估局限性、国家、城市、科学、个人和群体做事的方式,我觉得我们就可以有更好的思维,我们要去界定多样性和区别,在全球的层面进行界定,这样我们有了更多的数据,就会更加具有想象力。
我们可以看看谷歌的搜索,比如点击“好运气”按钮,或者在百度上也可以搜索,我知道我想要做些什么,然后预测能搜索到什么结果。我们也可以不这么搜索,可以找到更优质的数据模式来改变我们的世界。我们不仅仅要去看普通人、大部分人的思维,我们也可以去思考那些没有人思考的东西。我们不去优化过去,相反我们可以重新设计算法看一下我们可以学到什么,可以做出什么改变,我们可以以一种不同的思维来进行思考,这样的话我们就可以有更好的思维。