10个故事反思大数据是ldquo虚热

自年以来,大数据旋风以“迅雷不及掩耳之势”席卷中国。在大数据热炒之中,大数据的价值是否被夸大了?是否存在人造的“心灵鸡汤”?大数据技术便利带来的“收之桑榆”,是否也存在自己的副作用“失之东隅”即个人隐私何以得到保障?是不是也要多一点点真诚,少一点点套路?

在众声喧哗之中,我们需要冷静审慎地思考上述问题。今天跟大家分享有关大数据的10个小故事,不是唐僧式地说教,只想让大家客观地了解“大数据”。

故事01:大数据都是骗人的啊——大数据预测得准吗?

从前,有一头不在风口长大的猪。自打出生以来,就在猪圈这个世外桃源里美满地生活着。每天都有人时不时地扔进来一些好吃的东西,小猪觉得日子惬意极了!高兴任性时,可在猪圈泥堆里打滚耍泼。忧伤时,可趴在猪圈的护栏上,看夕阳西下,春去秋来,岁月不争。“猪”生如此,夫复何求?

根据过往数百天的大数据分析,小猪预测,未来的日子会一直这样“波澜不惊”地过下去,直到它从小猪长成肥猪……在春节前的一个下午,一次血腥的杀戮改变了猪的信念:尼玛大数据都是骗人的啊……惨叫嘎然而止。

这则“人造寓言”是由《MacTalk·人生元编程》一书作者池建强先生“杜撰”而成的。池先生估计是想用这个搞笑的小寓言“黑”一把大数据。

我们知道,针对大数据分析,无非有两个方面的作用:(1)面向过去,发现潜藏在数据表面之下的历史规律或模式,称之为描述性分析(DescriptiveAnalysis);(2)面向未来,对未来趋势进行预测,称之为预测性分析(PredictiveAnalysis)。把大数据分析的范围从“已知”拓展到了“未知”,从“过去”走向“将来”,这是大数据真正的生命力和“灵魂”所在。

那头“悲催”的猪,之所以发出“大数据都是骗人的啊”呐喊,是因为它的得出了一个错误的“历史规律”:根据以往的数据预测未来,它每天都会过着“饭来张口”的猪一般的生活。但是没想到,会发生“黑天鹅事件”——春节的杀猪事件。

黑天鹅事件(BlackSwanEvent)通常是指,难以预测的但影响甚大的事件,一旦发生,便会引起整个局面连锁负面反应甚至颠覆。读者可阅读纳西姆·尼古拉斯·塔勒布(NassimNicholasTaleb)所著的畅销书《黑天鹅》,来获得对“黑天鹅事件”更多的理解。

其实,我们不妨从另外一个角度来分析一下,这个搞笑的小寓言在“黑”大数据时,也有失败的地方。通过阅读知道,舍恩伯格教授在其著作《大数据时代》的第一个核心观点就是:大数据即全数据(即n=All,这里n为数据的大小),其旨在收集和分析与某事物相关的“全部”数据,而非仅分析“部分”数据。

那头小猪,仅仅着眼于分析它“从小到肥”成长数据——局部小数据,而忽略了“从肥到没”的历史数据。数据不全,结论自然会偏,预测就会不准。

要不怎么会有这样的规律总结呢:“人怕出名,猪怕壮”。猪肥了,很容易先被抓来杀掉。这样的“猪”血泪史,天天都上演的还少吗?上面的小寓言,其实是告诉我们:数据不全,不仅坑爹,还坑命啊!

那么,问题来了,大数据等于全数据(即n=All),能轻易做到吗?

故事02:颠簸的街道——对不起,“n=All”只是一个幻觉

△颠簸的街道

波士顿市政府也因此骄傲地宣布,“大数据,为这座城市提供了实时的信息,它帮助我们解决问题,并提供了长期的投资计划”。著名期刊《连线》(Wired)也毫不吝啬它的溢美之词:这是众包(Crowdsourcing)改善政府功能的典范之作。

众包是《连线》杂志记者JeffHowe于年发明的一个专业术语,用来描述一种新的商业模式。它以自由自愿的形式外包给非特定的大众网络的做法。众包利用众多志愿员工的创意和能力——这些志愿员工具备完成任务的技能,愿意利用业余时间工作,满足于对其服务收取小额报酬,或者暂时并无报酬,仅仅满足于未来获得更多报酬的前景。

然而,从一开始,“颠簸的街道”的产品设计就是有偏的(bias),因为使用这款App的对象,“不经意间”要满足3个条件:(1)年龄结构趋近年轻,因为中老年人爱玩智能手机的相对较少;(2)使用App的人,还得有一部车。虽然有辆车在美国不算事,但毕竟不是每个人都有;(3)有钱,还得有闲。前面两个条件这还不够,使用者还得有“闲心”,想着开车时打开“颠簸的街道”这个App。想象一下,很多年轻人的智能手机安装的应用程序数量可能两位数以上,除了较为常用的社交软件如Facebook或Twitter(中国用户用得较多的是微博、







































中科白癜风医院喜迎新年
白癜风得治疗



转载请注明:http://www.beicanshijie.com/sxnr/13090.html