大数据发现了厕所越干净城市越发达,但永远无法解释这背后的原因

原创 2017年12月01日 16:00:49

大数据

作者:波波夫科技

如果说下水道是一个城市的良心,那么厕所就是一座城市的门脸。

很多年前,人们就发现一个有意思的现象:一个城市的文明程度可以从其厕所的卫生程度得出,厕所越干净、城市越发达。但直到今天,大数据无法解释这背后的原因:究竟是城市发达了厕所自然就干净了,还是厕所干净了也会促进城市的发展。

对于这样「先有鸡还是先有蛋的问题」,还需要大数据加传统民调和小数据的结合才有肯能找到答案。

01 谷歌为何只猜对了一次?

感谢从维克托·迈尔-舍恩伯格到马云的孜孜不倦地布道,大数据现在几乎成了全球先进生产力的标志,而且几乎被赋予万能的希望。

在《大数据时代》一书中,舍恩伯格的确总结了相对传统小数据的三大特点:非随机样本,而是全体数据;非精确性,而是混杂性;非因果关系,而是相关关系。

最先证实大数据强大能力的乃是谷歌。

2009年在H1N1爆发几周前,谷歌公司的工程师们在Nature上发表了一篇论文,介绍了GFT,成功预测了H1N1在全美范围的传播,甚至具体到特定的地区和州,而且判断非常及时,令公共卫生官员们和计算机科学家们倍感震惊。

但是,在随后的几年当中,谷歌这一预测却屡屡失灵,以至于在2014年美国著名的《科学》期刊刊登的一篇题为《谷歌流感的寓言:大数据分析的陷阱》的文章称:

很大一部分与疾控中心流感发生率数据相关的搜索词,并非是得流感的人引起的,而是由影响搜索模式和流感传播的第三个因素(季节)产生的。谷歌流感趋势的开发人员发现那些特定的搜索词是随时间而发生变化的,但这些搜索显然与病毒无关。比如,有的人可能仅仅是因为看了一部电影或者文章而去搜索流感。

调查撰写这篇文章的哈佛大学、美国东北大学的几位学者认为,大数据的分析是很复杂的,但由于大数据的收集过程,很难保证有像传统小数据那样缜密,难免会出现失准的情况。最核心的问题是,大数据分析侧重相关性,导致在推导因果关系时容易出现误差。

他们建议,应该把大数据与小数据相结合,以「全数据」思维取代「大数据」思维。

02 了不起的盖洛普

前不久,清华附小六年级学生的一篇《大数据帮你进一步认识苏轼》小论文,被冠以大数据之名,这里的大数据其实是不折不扣的小数据,更确切地说只是用量化方式呈现了一个「数据化」的苏东坡。

这只是「炒作大数据」的一个缩影。

事实上,全球拥有真正意义上的大数据的公司并不多,而拥有分析大数据能力的公司更是凤毛麟角。斯坦福大学统计学教授Trevor Hastie曾比喻分析大数据的过程,就好比一大堆干草垛中,发现有意义的「针」,而困难之处恰恰在于很多干草看起来也像针。

大数据的不易得和分析的高难度,注定了其进入门槛的高耸。

但是,传统民意调查所形成的小数据有着显著的优势:样本的充分代表性、可操作、快速采集分析。

上世纪三十年代,美国数学家乔治·盖洛普通过建立与美国全体选民结构一致的5000个调查样本,成功地预测了罗斯福将赢得1936年总统选举。这位宣称「我能用统计的方法证明上帝的存在」的盖洛普先生开启了现代民意测验的商业化道路。

在大数据鱼龙混杂的浊流中,传统的问卷调查无疑是一个更靠谱的预测方式。

二胎政策出台后,如果想了解人们真实的生育意愿,按照大数据全样本的标准,特别是涉及到用户隐私,因此几乎无法操作,但是通过传统民调、却能够快速了解情况。

南京航空航天大学教授张杰在2016年初通过腾讯问卷针对10万人的调查显示,近四成人没有生育二胎的打算,已有女孩的家庭生育欲望更强,时间精力、经济状况不佳是国人不敢生二胎的主要原因。

此次二胎意愿调查之所以能回收高达10万份问卷,一则说明受访者对这个问题关注面比较广,二则体现了在线问卷更有利于保护隐私的优点,毕竟与生育相关的话题涉及个人隐私,传统线下一对一问卷调查,会让受访者不太自在。

在填写这份问卷时,腾讯问卷鼓励受访者使用QQ、微信号作为登录账号,但不提供注册功能,同时,还会对可疑问卷做红条警示提醒,对于需要用户提供如年龄、地域、收入、学历等信息的问卷,腾讯问卷支持用户自愿选择,突出对用户隐私的保护。

03 激活沉默的大多数

如果说大数据只有大机构才有能力获取,如今类似在线民调小工具则赋能普通大众获得便利的调研能力,比大数据更能体现互联网的普惠和平权特征。

中国的网民人数已经超过7亿,互联网的渗透率超过50%,但是网络舆论并不等同于网络民意,一个重要原因是,网民不能代表现实中全体公民,而且活跃网民也不能代表全体网民。

复旦大学传播与国家治理研究中心研究团队在2014年的一份研究报告称:

在结构上,网民主要分布在社会中间阶层,社会高层和底层人群较少,尤其是占中国总人口较大比例的农民或外出务工人员群体,虽然近两年有一定增长,但在网民中所占比例仍然较低,他们正是网络中沉默的大多数。

只需勾选、简单输入的在线问卷,为普罗大众理性表达意见提供一个便利渠道。

传统民调和今天的在线民调都面临一个共同问题:如此提高受访者的参与率。首先,民调拒访率逐年增高,受访率不断降低。根据皮尤中心的报告,美国民调回复率1997年为36%,2000年为28%,2006年15%,2013年9%,2015年只有7%。

04 有民调处有金山

大数据可以帮助我们推导出著名的口红效应(因经济萧条而导致口红热卖)、厕所效应(城市越发达厕所越干净)、以及著名的啤酒与尿布销售故事,但无法给出因果分析,要想从中得到具体的商业建议,还得需要提取样本进行传统调查式的分析。

如果说,大数据分析可以说是一种纵向的推断,是变量间相关关系的推断,那么问卷调查是基于样本推断总体,是一种横向的、由点到面的推断,尤其有助于商家快速了解用户偏好。

如果说大数据连接了千百万的数据点,可以准确地产生相互关系。但是,当人类按照自己的习惯行动时,大数据分析通常不会十分准确。所以挖掘用户需求时,在大数据之外,更重要的是通过对一个小群体的亲身观察和小数据常识,捕捉到这个社会群体所体现出的文化欲望。

相比大数据,人们更容易从小数据中获得更有价值的商业洞察。

腾讯新闻曾联合一家牙膏企业,通过腾讯问卷向三万多人发起了一次过敏口腔健康调查问卷,结果发现,发现口腔问题时,越年轻的受调查者越倾向于等待口腔问题自行缓解,但女性比男性更愿意尝试购买多种口腔护理用品,同时发现,漱口水是牙膏之外最受欢迎的口腔护理产品。

这份调查对于口腔护理公司来说至少提供了三点有价值的市场信息:第一、开展针对年轻消费者的口腔健康意识教育,有助于扩大用户群体;第二、加大针对女性的市场促销活动,有助于进一步刺激销售增长;第三,漱口水的市场空间广大,具备开拓价值。

在互联网时代,通过在线民调形成针对用户个人的小数据,依然是了解用户偏好的捷径。以最近几年在在线问卷市场快速崛起的腾讯问卷为例,首先,腾讯问卷采用了所见即所得的操作模式,只要通过拖、拉、连等极其简便的操作方式,一份专属于调查者的调查问卷就可以顺利成型;其次,腾讯问卷还集合了业务拓展、数据分析在内的综合性平台,利用服务器集群技术,每秒可以支持100万问卷页的同时打开,大大提升了用户的工作效率。

事实证明,互联网公司也高度重视问卷式调查。自2014年底正式上线以来,腾讯问卷累计使用用户已经超过100万,平台周PV超过千万。除了腾讯系产品微信、QQ、音乐、游戏等广泛使用腾讯问卷外,滴滴、58、链家、vivo、小米、央视315晚会、同程网等企业均使用腾讯问卷完成了大量的用户调查与研究项目。

但无论是传统的小样本民调,还是全样本的大数据分析,事实上面临着一个共同难题:即如何提升数据分析能力,如何将数据与人的心理、行为联系起来。这也正是预测的神秘和魅力所在。

End.

转载请注明来自36大数据(36dsj.com):36大数据 » 大数据发现了厕所越干净城市越发达,但永远无法解释这背后的原因

钱柜娱乐开户手机怎么会越用越卡?真相就在这里

Google的这些作为让钱柜娱乐开户系统在流畅度上有了实质性的突破,从宏观上讲,钱柜娱乐开户是越来越不卡越来越流畅,那么,在如今这么强大的硬件支持下,为什么还会让很多人觉得越用越卡呢? 自2...
  • zhangweiwtmdbf
  • zhangweiwtmdbf
  • 2015年12月28日 09:48
  • 4724

大数据为什么这么“火”? 为什么那么多人转型??

近几年,大数据这个词突然变得很火,不仅纳入阿里巴巴、谷歌等互联网公司的战略规划中,同时也在我国国务院和其他国家的政府报告中多次提及,大数据无疑成为当今互联网世界中的新宠儿。今天我就给大家分析一下大数据...
  • mountain623
  • mountain623
  • 2016年11月29日 13:53
  • 5392

MySql安装详细图解 以及卸载不干净解决方法

下面的是MySQL安装的图解,用的可执行文件安装的,详细说明了一下!打开下载的mysql安装文件mysql-5.0.27-win32.zip,双击解压缩,运行“setup.exe”,出现如下界面 ...
  • u012645834
  • u012645834
  • 2014年11月10日 14:37
  • 8083

智慧城市的背后是大数据的深度挖掘和利用

原文链接 摘要: 智慧城市主要以信息技术为支撑,发展智慧城市的目的是为了科学化地决策,提高管理效率,同时也为了资源配置的高效和集约。可见智慧城市的背后,实质是大数据的深度挖掘和利用。由国家政...
  • aikudemn
  • aikudemn
  • 2017年07月20日 14:58
  • 158

《大数据时代》读书笔记——知道“是什么”就够了,没必要知道“为什么”。我们不必非得知道现象背后的原因,而是要让数据自己“发声”

引言——一场生活、工作与思维的大变革 今天,一种可能的方式,亦是本书采取的方式,认为大数据是人们在大规模数据的基础上可以做到的事情,而这些事情在小规模数据的基础上是无法完成的。大数据是人们获得新...
  • csdn1161851523
  • csdn1161851523
  • 2016年10月26日 16:42
  • 1007

mysql大数据量使用limit分页,随着页码的增大,查询效率越低下。

原文转载:/lengyue1084/article/details/60868406 1. 直接用limit start, count分页语句, 也是我程...
  • yanguo110
  • yanguo110
  • 2017年12月01日 15:02
  • 84

一元多项式的加法(java实现)——浙大数据结构(陈越)

public class Test5 { public static void main(String[] args) { // TODO Auto-generated method stub...
  • zjkC050818
  • zjkC050818
  • 2016年12月13日 10:15
  • 303

一元多项式的加法和乘法运算(Java实现)——浙大数据结构(陈越)

输入格式: 输入分2行,每行分别先给出多项式非零项的个数,再以指数递降方式输入一个多项式非零项系数和指数(绝对值均为不超过1000的整数)。数字间以空格分隔。 输出格式: 输出分2行,分别以指数...
  • zjkC050818
  • zjkC050818
  • 2016年12月13日 15:46
  • 1618

最大子列和(递归、在线处理)——浙大数据结构(陈越)

public class Test1 { public static void main(String[] args) { // TODO Auto-generated method stub...
  • zjkC050818
  • zjkC050818
  • 2016年12月12日 16:25
  • 641

再谈makefile指定头文件和库出错的那点破事(折腾了0.5小时)------三个月后发现了真正原因

在文章/stpeace/article/details/50985578中, 我对makefile指定头文件和库出错的那点破事进行了详细总结, 基本能搞定大部分...
  • stpeace
  • stpeace
  • 2016年07月07日 23:33
  • 811
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:大数据发现了厕所越干净城市越发达,但永远无法解释这背后的原因
举报原因:
原因补充:

(最多只允许输入30个字)