牛津大学互联网研究院研究员王宁博士:

大数据与有限理性


要生存是要是个得思考的问题”,莎士比亚在《哈姆雷特》中的这句名言道出了我所有人一个共同的难题,就是选择。很多人都惧怕选择,有些人有选择恐惧症,特是面一些关于人生、事种重大选择候,我往往看不清楚未来、算不清楚得失,不知道怎么,有候非常纠结。上至一个国家的领导人,大政方的制定者,再至很多公司的管理,最后到普通的老百姓,选择可能都是每天需要面的一个问题

是如何选择的呢?早期的经济学家认为是理性的,也就是当·斯密在《国富》中述的,市是一只看不的手,每个人在他个体利益最大化的同也达到整个群体的利益最大化。然而经济学家可能往往都生活在理性的托邦中,当我科学家在解剖、打开人的大后,人的大是一个异常复的系,是一个复性网,它可能有上亿点,可能是迄今止最复的一个系,正是因它的复致了人很多的行都是不可知的,也是不可预测的。所以,从另一个方面是非理性的。

今天讨论的可能是一种有限理性,属于行经济学理,介于理性和非理性之。人的理性受制于很多外部条件的限制,最重要的外部条件就是信息,你取到什么的信息将直接影响到你所做的选择

2013年4月23号黑客攻击了美联社的Twitter账户布了一条虚假信息,“白有两次爆炸,奥巴伤”,我可以看到美国道斯指数在相同的声下跌近140点,也可能是人史上第一次通社交媒体影响到整个股市行情的崩

信息会影响股市的走向。波士大学的一个研究分析了从2004年到2011年道斯指数走跟谷歌趋势的相关性,每次股市烈的化伴随而来的都是搜索量急的增加。

利用个策略,他了一个基于谷歌搜索引擎的交易策略,个策略使用的一个关键词就是“负债”。个交易策略很简单,当搜索引擎的数据量减少的候,我就可以买进下一个星期的道斯指数,当搜索量增加的候,我们卖出下一星期的道斯指数。

可以很明地看到色的线是谷歌的交易模型造的,如果套用个交易模型,最它的投收益率是300%。色的线就是你个指数之后一直放在那儿,实际上收益是非常低的。这证明搜索引擎,包括社交媒体的很多西能帮助人做很多决定,也就是今天道生先生到的怎么利用大数据帮助人做一些决定。

相同的研究包括一篇表在《自然》志的文章,关于面向未来的指数,它做的方式是利用搜索量,比如今年的搜索量、明年的搜索量和前年的搜索量。它用明年的搜索量除以前年的搜索量,也就是未来的数据除以去的数据,这就是基于未来的指数。

相关的模型,我可以现这个基于未来的指数跟每个国家的GDP有很好的正相关性,从另一个方面,当一个国家的国民或者网民更加偏向于搜索未来的西,那个国家的经济情况往往是比好的。

2012年我跟牛津大学互网研究院(OII)的一个同事克一起做了一个基于英国洪水的可化分析,可以看到在大家左手个是英国官方气象局的一个降雨量的分析,而右是我把所有的相关段内在Twitter里跟洪水相关的信息下了之后分布到地上。我可以看到在一些洪水特的地区,我形跟英国的官方的形有很好的吻合,但是有很多地方也是没有的,可能网上没有种信息。但是好是我数据是的,能分析出洪水分布的情况,官方的数据可能要等到好几个星期以后。所以,社交媒体的很多数据能帮我做一些自然灾害防的决策。

2012年我一个关于美国大的分析,当美国有两个候人,姆尼跟奥巴,我把所有大之前一个月的跟姆尼和奥巴相关的Twitter上的信息都下之后,按美国每个区的分布做成了一个可。大家都知道美国的总统选举选举人制度,就是根据每个州的投票所决定的,我在美国大之前已的可以看出网上讨论奥巴的要远远大于讨论罗姆尼的,基于此我们预言奥巴算更大一点儿,我把提到奥巴的数据和姆尼的数据比,52.4%有关于奥巴,47.6%有关于姆尼。下面是大之后官方的数据,两个数据有很大的相似性。

们这布出来以后,很多政治评论家都怀疑,说罗姆尼不可能萨诸塞州的选举。而且奥巴得德克萨斯州的选举也是很多人预测不到的,但是最后明我的数据对这两个州的分析都是正确的。

Facebook做了一个关于社交网中人类行为传播的,号称是迄今止最大的一个,分析了六千万人的本,也是美国大,每个人投票之后可以在Facebook上布一个消息,Facebook的分析把人的疏关系分成十等,数据越大明你跟个人越密,10就代表人跟人的关系非常密,我可以通过这看到当疏关系增加,人跟人的影响力也是在增的,越密它的播跟影响就会越大。每个人做的决定,不但影响到你,有可能你个决定会影响到人。比如我更加向于投奥巴,有可能周的人也更加向于投奥巴

之前谈了很多大数据的应用,都是很正面的东西,这里我想提两点,大数据研究的风险。

首先,第一个风险是数据的误读,谷歌流感的分析提的很多了,特别是牛津互联网研究院维克多教授《大数据时代》的开篇就以这个案例作为大数据成功应用的典型,但是我们仔细地看这个大数据分析,2012年和2013年之间这一根红色的线就是谷歌流感的数据,绿色的是美国官方疾病控制中心的数据。在2012年至2013年的6、7月份,谷歌流感的数据远远大于疾病控制中心的数据,所以,我们如果基于谷歌的数据做一些预判、风险的预防,有可能导致预判错误,有些网上的数据有可能是夸张地显示出了实际生活的一些情况。

另外一个例子,我们进行大数据研究时,很多学者都忽略了一个最根本的问题就是偏差的问题,这是我们今年发表的一篇文章,我们研究了三个不同的数据库,针对同一种关键词用不同的方法提取,最后我们得到三种不同的数据库。我们把这三个不同的数据进行比较,然后计算各个数据跟各个数据之间的相关性,我们发现这种相关性随着时间的流逝是有变化的,也就是说从另一个方面理解,当三个不同的学者在做一个同样的研究,有可能你用不同的方法,不同的数据采集方式,最后提取的数据不同。你再基于这种数据做出很多的结论,有可能这个结论到最后是有偏差的,而这个偏差是基于数据的,有可能蕴藏于你原始的数据之中。

我们人类在很长一段时间,因为互联网到现在也就几十年的时间,针对人类上千年的历史,人类在很长的时间处于信息稀缺的时代,我们很多决定的时候可能没有信息或者信息不够,就像今天汤道生讲的是一种近似于赌博式的方法,就像中国古代早期很多占卜的方式,没有什么好选择就去占卜、抽签或者利用龟壳的方式。大数据实际上对于人类做决定最重要的影响可能就是改变了这个现状。现在我们不是在一个信息稀缺的时代,而是在一个信息过剩的时代,我们每个人所有的行为模式、方法都会被映射到网上,不但你的,还有你朋友的,社交媒体的行为模式都被映射到网上,这个数据是源源不断的,我们不再担心数据不够,而更需要担心数据过剩的问题。

在传统的人类决策模型中,每个人做一个决定,这个决定转化为信息,它转化的方式更多的通过口传心授,比如你朋友买了一个什么东西,他告诉你,然后你去买,影响到你做决定。或者通过书本的方式,我们通过读书摄取之后转化成自己的知识,通过这个方式做决定,最后形成了一个反馈回路。但是大数据时代这个反馈回路可能要进行扩展。我们有了第二层外环的反馈回路,人类做决定之后,这些所有的决定都会被转化为数据,这就是我们所说的大数据时代,所有人的行为模式,各种各样的东西通过手机、无线互联网都会被转化为数据,这些数据通过大数据分析转化为信息,然后信息给相关的决策者,决策者通过这些信息做判断,这样形成另外一层的反馈回路,通过这种反馈回路的信息数据不停地循环,最后达到一个终极目的:会不会有可能通过机器取代人的位置,人类最大的一个难题可能就解决了,不是人去做,让机器去做很多决定。

谈到机器决定,现在用数据的模式让机器做决定也是非常热的一个话题,我们觉得机器做决定可能有三步走的方式。首先,第一步很明显,人自己做决定。而现在在大数据时代,更多的是人跟机器交互做决定,比如一些常规的决定,一些比较重复性的决定,都是通过机器来做,而人去做一些机器所不能做的决定。最简单的一个例子,你去信用卡公司买东西,你地址换了,信用卡公司会发现有可能是有人盗用你的信用卡,通过数据判断出之后他把这个信息转给一个接线生或者公司员工,这个员工会给你打电话,这就是一个典型的人机交互做决定的模式,人跟你谈完话以后决定到底是不是有人盗用你的信用卡,最后会不会有可能所有的决定都会让机器来做,今天时间有限,我可以在最后再跟大家讨论。

最后我想以一句话结束我今天的演讲,“数据是一种知识源,但是除非数据进行很好的组织加工,并按照正确的方式提供给正确的人进行决策,否则它就是一种负担,不是一种收益”。