牛津大学王宁博士：大数据与有限理性

大数据似乎在一夜之间迅速走红，它势不可挡地冲击着金融、零售等各个行业。云计算将如何改变计算的世界？未来将有怎样的应用前景？如何解决“信息孤岛”的问题？大数据又将如何提高我们决策的准确性，帮助我们更准确地预测未来？
在2014年7月25日腾讯互联网与社会研究院主办的“大数据连接的未来——2014腾讯互联网与社会研究院高峰论坛”上，牛津大学互联网研究院研究员王宁博士分享了《大数据与有限理性》。

牛津大学互联网研究院研究员王宁博士：

大数据与有限理性

“要生存还是要毁灭，这是个值得思考的问题”，莎士比亚在《哈姆雷特》中的这句名言道出了我们所有人一个共同的难题，就是选择。很多人都惧怕选择，有些人有选择恐惧症，特别是面对一些关于人生、事业、爱情这种重大选择的时候，我们往往看不清楚未来、算不清楚得失，不知道该怎么选，有时候非常纠结。上至一个国家的领导人，大政方针的制定者，再至很多公司的管理层，最后到普通的老百姓，选择可能都是每天需要面对的一个问题。

人类是如何进行选择的呢？早期的经济学家认为人类是理性的，这也就是亚当·斯密在《国富论》中论述的，市场是一只看不见的手，每个人在他个体利益最大化的同时也达到整个群体的利益最大化。然而经济学家可能往往都生活在理性的乌托邦中，当我们的脑科学家在解剖、打开人的大脑后，发现人的大脑是一个异常复杂的系统，是一个复杂性网络，它可能有上亿个节点，可能是迄今为止最复杂的一个系统，正是因为它的复杂性导致了人类很多的行动都是不可知的，也是不可预测的。所以，从另一个方面讲是非理性的。

我们今天讨论的可能是一种有限理性，属于行为经济学理论，介于理性和非理性之间。人类的理性受制于很多外部条件的限制，最重要的外部条件就是信息，你获取到什么样的信息将直接影响到你所做的选择。

2013年4月23号黑客攻击了美联社的Twitter账户发布了一条虚假信息，“白宫有两次爆炸，奥巴马受伤”，我们可以看到美国道琼斯指数在相同的时间段应声下跌近140点，这也可能是人类历史上第一次通过社交媒体影响到整个股市行情的崩盘。

信息会影响股市的走向。波士顿大学的一个研究团队分析了从2004年到2011年道琼斯指数走势跟谷歌趋势的相关性，每次股市剧烈的变化伴随而来的都是搜索量急剧的增加。

利用这个策略，他们设计了一个基于谷歌搜索引擎的交易策略，这个策略使用的一个关键词就是“负债”。这个交易策略很简单，当搜索引擎的数据量减少的时候，我们就可以买进下一个星期的道琼斯指数，当搜索量增加的时候，我们卖出下一星期的道琼斯指数。

我们可以很明显地看到蓝色的线是谷歌的交易模型创造的，如果套用这个交易模型，最终它的投资收益率是300%。红色的线就是你买了这个指数之后一直放在那儿，实际上收益是非常低的。这证明搜索引擎，包括社交媒体的很多东西能够帮助人类做很多决定，也就是今天汤道生先生谈到的怎么利用大数据帮助人类做一些决定。

相同的研究还包括一篇发表在《自然》杂志的文章，关于面向未来的指数，它做的方式是利用搜索量，比如今年的搜索量、明年的搜索量和前年的搜索量。它用明年的搜索量除以前年的搜索量，也就是未来的数据除以过去的数据，这就是基于未来的指数。

通过相关的模型，我们可以发现这个基于未来的指数跟每个国家的GDP有很好的正相关性，从另一个方面讲，当一个国家的国民或者网民更加偏向于搜索未来的东西，那这个国家的经济情况往往是比较好的。

2012年我跟牛津大学互联网研究院（OII）的一个同事马克一起做了一个基于英国洪水的可视化分析，可以看到在大家左手边的这个是英国官方气象局的一个降雨量的分析，而右边是我们把所有的相关时段内在Twitter里跟洪水相关的信息下载了之后分布到地图上。我们可以看到在一些洪水特别泛滥的地区，我们的图形跟英国的官方的图形有很好的吻合，但是有很多地方也是没有的，可能网上没有这种信息。但是好处是我们数据是实时的，能实时分析出洪水分布的情况，官方的数据可能要等到好几个星期以后。所以，社交媒体的很多数据能帮我们做一些自然灾害预防的决策。

2012年我们做过一个关于美国大选的分析，当时美国有两个候选人，罗姆尼跟奥巴马，我们把所有大选之前一个月的跟罗姆尼和奥巴马相关的Twitter上的信息都下载之后，按美国每个区的分布做成了一个可视化图。大家都知道美国的总统选举是选举人制度，就是根据每个州的投票所决定的，我们在美国大选之前已经明显的可以看出网上讨论奥巴马的要远远大于讨论罗姆尼的，基于此我们预言奥巴马的胜算更大一点儿，我们把提到奥巴马的数据和罗姆尼的数据进行对比，52.4%有关于奥巴马，47.6%有关于罗姆尼。下面是大选之后官方的数据，两个数据有很大的相似性。

当时我们这个结果发布出来以后，很多政治评论家都怀疑，说罗姆尼不可能赢得马萨诸塞州的选举。而且奥巴马赢得德克萨斯州的选举也是很多人预测不到的，但是最后结果证明我们的数据对这两个州的分析都是正确的。

Facebook做了一个关于社交网络中人类行为传播的实验，号称是迄今为止最大的一个实验，分析了六千万人的样本，也是美国大选期间，每个人投过票之后可以在Facebook上发布一个消息，Facebook的分析员把人的亲疏关系分成十等，数据越大证明你跟这个人越亲密，10就代表人跟人的关系非常亲密，我们可以通过这个图看到当亲疏关系增加，人跟人的影响力也是在增长的，越亲密它的传播跟影响就会越大。这样我们每个人做的决定，不但影响到你，有可能你这个决定还会影响到别人。比如我更加倾向于投奥巴马，有可能周边的人也更加倾向于投奥巴马。

之前谈了很多大数据的应用，都是很正面的东西，这里我想提两点，大数据研究的风险。

首先，第一个风险是数据的误读，谷歌流感的分析提的很多了，特别是牛津互联网研究院维克多教授《大数据时代》的开篇就以这个案例作为大数据成功应用的典型，但是我们仔细地看这个大数据分析，2012年和2013年之间这一根红色的线就是谷歌流感的数据，绿色的是美国官方疾病控制中心的数据。在2012年至2013年的6、7月份，谷歌流感的数据远远大于疾病控制中心的数据，所以，我们如果基于谷歌的数据做一些预判、风险的预防，有可能导致预判错误，有些网上的数据有可能是夸张地显示出了实际生活的一些情况。

另外一个例子，我们进行大数据研究时，很多学者都忽略了一个最根本的问题就是偏差的问题，这是我们今年发表的一篇文章，我们研究了三个不同的数据库，针对同一种关键词用不同的方法提取，最后我们得到三种不同的数据库。我们把这三个不同的数据进行比较，然后计算各个数据跟各个数据之间的相关性，我们发现这种相关性随着时间的流逝是有变化的，也就是说从另一个方面理解，当三个不同的学者在做一个同样的研究，有可能你用不同的方法，不同的数据采集方式，最后提取的数据不同。你再基于这种数据做出很多的结论，有可能这个结论到最后是有偏差的，而这个偏差是基于数据的，有可能蕴藏于你原始的数据之中。

我们人类在很长一段时间，因为互联网到现在也就几十年的时间，针对人类上千年的历史，人类在很长的时间处于信息稀缺的时代，我们很多决定的时候可能没有信息或者信息不够，就像今天汤道生讲的是一种近似于赌博式的方法，就像中国古代早期很多占卜的方式，没有什么好选择就去占卜、抽签或者利用龟壳的方式。大数据实际上对于人类做决定最重要的影响可能就是改变了这个现状。现在我们不是在一个信息稀缺的时代，而是在一个信息过剩的时代，我们每个人所有的行为模式、方法都会被映射到网上，不但你的，还有你朋友的，社交媒体的行为模式都被映射到网上，这个数据是源源不断的，我们不再担心数据不够，而更需要担心数据过剩的问题。

在传统的人类决策模型中，每个人做一个决定，这个决定转化为信息，它转化的方式更多的通过口传心授，比如你朋友买了一个什么东西，他告诉你，然后你去买，影响到你做决定。或者通过书本的方式，我们通过读书摄取之后转化成自己的知识，通过这个方式做决定，最后形成了一个反馈回路。但是大数据时代这个反馈回路可能要进行扩展。我们有了第二层外环的反馈回路，人类做决定之后，这些所有的决定都会被转化为数据，这就是我们所说的大数据时代，所有人的行为模式，各种各样的东西通过手机、无线互联网都会被转化为数据，这些数据通过大数据分析转化为信息，然后信息给相关的决策者，决策者通过这些信息做判断，这样形成另外一层的反馈回路，通过这种反馈回路的信息数据不停地循环，最后达到一个终极目的：会不会有可能通过机器取代人的位置，人类最大的一个难题可能就解决了，不是人去做，让机器去做很多决定。

谈到机器决定，现在用数据的模式让机器做决定也是非常热的一个话题，我们觉得机器做决定可能有三步走的方式。首先，第一步很明显，人自己做决定。而现在在大数据时代，更多的是人跟机器交互做决定，比如一些常规的决定，一些比较重复性的决定，都是通过机器来做，而人去做一些机器所不能做的决定。最简单的一个例子，你去信用卡公司买东西，你地址换了，信用卡公司会发现有可能是有人盗用你的信用卡，通过数据判断出之后他把这个信息转给一个接线生或者公司员工，这个员工会给你打电话，这就是一个典型的人机交互做决定的模式，人跟你谈完话以后决定到底是不是有人盗用你的信用卡，最后会不会有可能所有的决定都会让机器来做，今天时间有限，我可以在最后再跟大家讨论。

最后我想以一句话结束我今天的演讲，“数据是一种知识源，但是除非数据进行很好的组织加工，并按照正确的方式提供给正确的人进行决策，否则它就是一种负担，不是一种收益”。