转载

Big data is better data

美国人最喜欢的派是什么?苹果派,超市的销售记录显示,苹果派在30厘米的派中销量总是第一。可是超市改卖11厘米派以后,苹果派却迅速跌落到第四或第五的位置。怎么回事?30厘米的派必须全家一起享用,苹果派其实不是每个人的最爱,但它是每个人的第二选择。而11厘米的派是每个人单独享用的,可以买你最喜欢的品种。这个故事告诉我们,数据量的增加可以揭示出更多的真相。

通过更多的数据,我们不只是可以得到更多同样的结果,我们可以得出新的结论,可以得到更好的结论,可以得到不同的结论。

你一定听说过大数据这个概念,你可能都听厌烦了,关于大数据有太多的宣传了,但它确实是推动社会进步的重要工具。我们现在可以获取的数据要比过去多得多,这使得我们可以完成很多以前不可能做到的事。大数据可以帮助我们解决很多全人类的挑战:养活更多的人,给他们提供好的医疗,给他们提供能源,保证人类不会因为地球变暖被烤成薯片。

古代的时候,信息的载体是龟甲,兽骨,陶板或竹简。现代的存储介质要先进得多,容量更大,更容易检索,复制,共享和加工 (Searching it is easier. Copyingit easier.   Sharing it is easier. Processingit iseasier.)我们可以通过新的手段重用这些信息, 这些手段在当初收集信息时甚至是无法想象的。数据从存储物变成了流,从静态的事务变成了可流动的,动态变化的事务。 (the data has gone from a stock to a flow, from something that is stationary and static to something that is fluid anddynamic.)过去的存储介质很笨重,容量很小,而且存储的内容通常是不可改变的。相反,在

一个指甲大小的优盘上就可以存放 斯诺登从美国国安局拿走的全部文件,而且这些资料可以以光速进行分享。

现在之所以有这么多数据,一方面是不断积累的结果,另一方面是原来没有以数据形式存储的信息都被存储了下来。我们以位置信息为例,在孔子的时代,如果想记录他的行踪,就得派个学生拿着笔墨纸砚,不断地记录。但是现在,一个带有GPS功能的手机就可以自动将每个人的行踪记录到表格或数据库中。位置信息被数据化了。

当我们在椅子上就座时,每个人的坐姿都是不同的,这取决于腿和上身的长度,以及背部的轮廓等,如果我们预先在椅子里放入一些传感器,就可以采用到每个人独特的坐姿数据,这类似于你的指纹。可是这有什么用呢?东京的一家公司正将这项技术用于汽车防盗。未经授权的人坐到驾驶员位置时是无法启动车辆的,除非通过面板输入密码以取得授权。这些技术还可以用来减少因为疲劳驾驶所造成的交通事故,司机困倦时坐姿会发生变化,如果座椅上的传感器能够检查并判断出这一情况,就可以通过车内的喇叭大声提供司机注意行车安全。

大数据应用的另一个典型例子是机器学习,机器学习是人工智能的一个分支(

Machine learning is a branch of artificialintelligence )了解机器学习的源起有助于你理解它的意义。 ArthurSamuel是IBM的一名计算机科学家,他喜欢玩西洋棋,于是他编写了一个西洋棋程序,这样他就可以和计算机下棋了,结果计算机总是输,因为计算机只知道规则却不懂策略。后来他改进了程序,通过历史记录来判断每一步棋走完之后输赢的概率,结果计算机仍然一直输棋。接下来它让计算机自己下棋,不断收集数据,数据量的增加提高了预测的精准性,于是 Arthur成为不断 输棋的一方

机器学习的例子比比皆是,比如无人驾驶汽车,它之所以成为可能,不是因为我们找到了可以将所有交通规则输入计算机的方法,不是因为处理器更快,不是因为算法更好,也不是因为存储更便宜,而是我们改变了解决问题的办法,我们不再蓄意地教导计算机如何开车,而是让它通过大量的数据来自主学习,学会识别交通灯,当交通灯是红色时就应该停下来而不能再前进。

机器学习是很多事物的基础,如搜索引擎,亚马逊的个性化算法,计算机翻译,语音识别系统等。

大数据给我们的生活带来便利的同时,也存在着不好的影响,我们可能受到预测的惩罚,就像《少数派报告》中的情节,通过对各个地区犯罪率的统计,我们就知道应该往哪里多派巡逻队。应该加以分析的不只是位置信息,还包括一个人的高中成绩单,是否失业,信用卡记录,上网行为以及是否总是晚睡等。如果可穿戴设备能够检查一个人的生物信息,我们甚至可以知道他头脑里有侵犯他人的念头。

在“小数据”时代,隐私是最主要的挑战,在“大数据”时代,

挑战演变为

守卫自由意志,道德选择,人类的意志和人的能动性(safeguarding free will, moral choice, human volition, humanagency. 这几个词不理解,真的很难翻译)

另一个问题是,大数据会让21世纪的白领失业,正如20世纪时自动化装配线让蓝领工人失业一样。一个读了很多年书,通过大量学习才掌握了工作技能的人,可能发现自己一直从事的工作完全改变甚至彻底消失了。技术的发展可以为人们创造更多的就业机会,也可能使一些人失业,工业革命对于马而言,就不是一件好事情。因此我们应该按照人类的需求合理地使用大数据,人类应该是技术的主人而不是仆人。目前我们并没有足够的能力来掌控那些收集到的数据,商人们收集到的数据可能被滥用,我们要努力做得更好,但这需要时间。现代人与大数据的关系正如原始人与火,如果使用得当,火就是一种很好的工具,如果使用不当,就会引火烧身。

大数据将改变人们生活、工作甚至思考的方式。它可以帮助我们管理职业发展,让人们的生活更幸福美满,信息技术简称IT,以前我们更多地专注于那个T,以后要更多专注那个I了,因为它更有价值,它可以让我们学到更多,更好地了解这个世界和我们在世界中所处的位置。一句话:大数据大有可为。

正文到此结束
Loading...