大数据面临的风险和存在的一些问题

发布时间：2022-12-12 17:35:28 所属栏目：大数据来源：未知

导读： 这是网络游戏2006年历程扩散的结果，实际模型是这样的，通过这个模型我们可以看到：
1. 分文化程度、体制内外不同年龄的人群在游戏使用上存在显著差异，可以清晰的看到在2006年网络游戏呈现

这是网络游戏2006年历程扩散的结果，实际模型是这样的，通过这个模型我们可以看到：

1. 分文化程度、体制内外不同年龄的人群在游戏使用上存在显著差异，可以清晰的看到在2006年网络游戏呈现出文化程度主导下的创新扩散规律。

2.在高文化程度人群中，开始向34岁-40岁扩散，呈现大幅增长，并形成一个峰值。

3.在低文化程度群体中，比如高中、初中在年轻群体中迅速扩散，形成一个峰值。

4.在2006年，网络游戏从文化程度的几个角度开始扩散，年龄不再只是高低之分，而是与文化程度变量综合形成的效果[10]。我们看到网络游戏这种波浪式的扩散过程，不仅可以找到2006年是谁在使用网络游戏，也可以用生命周期、家庭周期来解释原因，而通过对体制内与体制外人群的使用差异分析，又可以展现出工作空间不同所带来的人的行为差异。当我们把2006年的结果放回网络游戏的整个扩散历程中时，所能看到就已经不再是网络游戏本身，而是新技术带来的社会变迁过程。

对一个社会现象进行客观深刻准确的分析，对事物的理解需要数据，但更需要分析思维，在大数据时代，理论并非不重要，而是变得更加重要。我们所指的理论也并非僵化一成不变的固守旧有理论，而是在处理问题的过程中意识到海量数据所带来的复杂性，坚持分析方法和理论的不断创新。

(二)抽样分析+全数据验证的分析思路

维克托·迈尔·舍恩伯格在介绍大数据时代的数据分析思维转变时提到过三个观点，其中之一是：分析所有的数据，而不再仅仅依靠一小部分数据。全数据一时甚嚣尘上，企业、研究者以为大数据就是全数据，以至于再谈抽样都似乎带有保守主义色彩，这种看法无疑是对大数据和抽样二者都存在偏见和不足，而一个风行的词汇恰恰对于从事这项活动的人来说意味着什么才是及其重要的，如果认为大数据就是收集所有样本的信息，让数据自己说话，那么在方法论上就是狭隘的，而这种狭隘却因为其闪烁着开放、客观、全面的光芒而被忽视。

这种观点面临的第一个风险就是“全数据”在哪里数据量达到何种程度时，可以认为是“全”数据

这里也涉及了全数据的第二个问题全(暂且假定我们通过人们在谷歌上输入搜索条目就找到了真正意义上的全：谷歌利用搜索记录而预测到流感爆发的案例被广为引用以说明数据自会说话，当人们开始在网上搜索关于感冒的词汇表明他感染了流感，建立流感与空间、病毒的关系，能够成功的预测一场流感)[11]数据确实能看到变化，通过变化作出“预测”，但无法解释变化的影响因素，维克托·迈尔·舍恩伯格对此的回答是：我们要相关性，不要因果关系。这并非是这位作者有选择的选择，而是放弃抽样而直接采用大数据的必然。

维克托·迈尔·舍恩伯格认为可以允许不精确而使用大数据的简单算法解决问题，而1936年《文学文摘》和盖洛普在总统选举预测中的不同表现，至今仍然向我们表明科学、严谨抽样的重要性。《文学文摘》依靠纸媒时代巨大的发行量获得240万民众的数据，而盖洛普仅在严格抽样基础上研究了5000人，是“小数据”的复杂算法超过“大数据”的简单算法的真实案例。

没有抽样的拟合，直接面对大数据，将使我们失去对人的了解，对真实规律的追寻，毕竟不是所有的社会事实都一场流感一样易于预测，况且即便是谷歌被广为赞誉的流感预测案例也被认为存在问题：在与传统的流感监测数据比较之后，根据互联网流感搜索实时更新的Google流感趋势被发现明显高估了流感峰值水平。科学家指出基于搜索有太多的噪音影响了它的精确度这表明基于社交网络数据挖掘的流感跟踪将不是替代而只能补充传统的流行病监测网络。他们正在开发噪音较少的替代跟踪方法，例如基于Twitter的流感跟踪只包含真正病人的帖子，而不是转载的流感新闻报道。[12]

大数据风险_如何管理投资大数据所带来的风险_大数据风险指数高怎么办

三、封闭数据与断裂数据

封闭数据和断裂数据所带来的问题在第二部分已经提到，它们会产生虚假的统计学关系，影响分析结果的准确性和可检验性，下面具体对这两方面的问题做一个分析。

(一)封闭数据使数据缺乏多样化

“数据增值的关键在于整合，但自由整合的前提是数据的开放。开放数据是指将原始的数据及其相关元数据以可以下载的电子格式放在互联网上，让其他方自由使用。开放数据和公开数据是两个不同的概念，公开是信息层面的，开放是数据库层面的。开放数据的意义，不仅仅是满足公民的知情权，更在于让大数据时代最重要的生产资料数据自由地流动起来，以催生创新，推动知识经济和网络经济的发展。”[13]

开放是大数据的题中之义，也是我国政府、企业在大数据时代必须适应的转变，而我们目前面临的情况仍然是一个平台一个数据，数据壁垒造成的局面是：有所有数据，同时又什么数都缺。

比如在医疗领域，大数据被认为为医疗领域带来希望 ---计算机可以在模仿人类专家在直觉方面更进一步，而不必依赖EBM这样的小数据集了。医疗信息体系仍在使用陈旧的数据屏障，在这个体系中，只有通过审核的、标准的、被编辑过的数据才能被接收，由于缺乏一致性，许多可用的数据被拒之门外。这个屏障创造了同质化的数据，而排除了能使系统真正有用的多样性。[14]

再以新浪、搜狐、网易、腾讯四大微博的数据平台为例，四家公司的数据各自为阵，相互独立，关于微博用户行为分析都是基于对自己现有用户的分析，这种封闭的数据环境下，很多层面的具体分析都将受到很大的局限，比如重叠用户的分析，什么特征的人群会只在一个平台上开设账号，什么特征的人会在不同平台上都开设账号，在不同平台上使用风格是否相同，在不同账号下活跃度是否相同，影响因素是什么这是在封闭的数据环境下无法进行分析的。

数据是企业最重要的资产，而且随着数据产业的发展，将会变得更有价值。但封闭的数据环境会阻碍数据价值的实现，对企业应用和研究发现来讲都是如此，因此我们需要合理的机制在保护数据安全的情况下开放数据，使数据得到充分利用。有效的解决办法之一是公正的第三方数据分析公司、研究机构作为中间商收集数据、分析数据，在数据层面打破现实世界的界限，进行多家公司的数据共享而不是一家公司盲人摸象，这才能实现真正意义上的大数据，赋予数据更广阔全面的分析空间，才会对产业结构和数据分析本身产生思维转变和有意义的变革。

(二)断裂数据使数据缺乏结构化

封闭数据使我们无法看到多样化的数据，断裂数据则使数据缺乏结构化。来自IDC的报告显示，2012年全球数字信息中90%的数据都是视频、声音和图像文件这样的非结构化数据[15]，缺乏结构化本身是可以通过新技术解决的问题，正因为如此才使这个问题变得棘手。对新技术的过分追逐，一方面会使得数据本身的真实性、完整性遭到破坏，另一方面会使对数据背后的人和生活意义的分析得不到充分重视。

1.行为背后看不见人，缺失生活意义。

以淘宝为例，当淘宝想研究“究竟是什么人”在淘宝上开店的时候，他们发现并不像想象中的那么容易。

在淘宝公司的实时地图上，可以利用GPS系统清晰的知道每一秒全国各地正在发生的交易，但是对于这些人的族群特征，实时地图并不能告诉他们更多。[16]同样的问题出现在腾讯游戏部门的用户研究中，他们并不能从实时的监测中知道是谁在玩他们的游戏，他们有什么爱好、是什么性格、为什么喜欢一款游戏他们知道的只是一个ID账号，这就是断裂数据带来的问题：表面上全面，实际上都是片段式的数据。全数据确实可以在一定程度上掌握人的行为，但是无法知道是什么样的人的行为。明白这一点，就可以理解为什么谷歌会推出Google+，以获取具体的用户信息，包括姓名、爱好、朋友、身份等具体数据。任何一个平台都有其数据收集方面的优势，也有其短板，表面上拥有海量数据，但其实都只是一个片段，缺乏连续性和可识别性。

巴拉巴西在《爆发》中介绍了一个网站LifeLinear，用户通过在搜索框中输入自己的名字就可以查到自己一天任何时间任何地点的监控录像，无论在哪儿，你的行踪都会被网站记录下来。这是作者虚拟的一个网站，但信以为真并输入网站名字进行搜索的人不在少数，因为理论上它是可以实现的，一是借助城市中的无线监视系统，反馈数据到单条检索数据库中，指示计算机追踪所有的人。二是，也是最为关键的是每个人都有固定的生活习惯、行为规律，系统可以据此为每个人建立行为模型，然后预测你可能出现的地方，并在那儿等你。[17]

这样一个系统的建立依靠技术系统，但更主要的是对每一个个体的全面了解和分析，假设、模型、检验缺一不可。在这本书中巴拉巴西介绍的另一位数据公开者，他把自己的位置数据、财产信息都传到网上，但是关于这个人你一无所知，因为没有任何关于他性格、喜好等个性化信息，是“什么都有，但什么都缺”的典型案例。

2.大量的非结构化数据颠覆原来分析的基本范式。

在大数据时代，需要处理的数据不再是传统意义上的数据，而是文字、图片、音频视频等种类多样的数据，大量的非机构化数据对数据分析提出了新的挑战，因为只有能被定义的数据才是有价值的信息。

使用人人网的用户大概不会陌生，在个人主页上会出现好友推荐，这很简单，只需要分析用户的好友，找到朋友之间的关联，就可以找到这一点。但是当人人网需要决定在广告位上投放何种广告时，则需要对大量的由用户产生的文字、照片、分享内容与好友的互动进行分析。海量的非结构化、半结构化数据如何加以结构化并从中找出规律，这需要新的算法、新的分析思维。

四、缺失数据

奥斯卡·王尔德在1894年说，“如今几乎没有无用的信息，这真悲哀。”严格的说，他一半都没有说对。只有有价值的数据才称得上信息，从数据中获得尽量多的信息并非易事，随着数据量的扩大，缺失数据产生的比例也会相应扩大，尤其当一个样本中出现多项缺失时，会加大处理的难度，除了构造模型失之准确之外，还有时间复杂度方面的问题。

对所有大数据来讲，分析哪个问题数据量都不够大，对于所有人来讲，数据都是缺失多于正常数。在数据收集和整合过程中采用新技术手段避免这一问题将使这一问题在分析上带来的分险变得更突出，比如BI公司为了避免数据的不完整性采用快速修复技术整合分散数据，这将使我们失去最原始的真实数据，这使得研究者很容易舍弃与假设不符合的数据，也使验证结论变得不再可能。

比如雀巢在200个国家出售超过十万种产品有55万家供应商，但由于数据库一团糟它并未形成强大的采购议价优势。在一次检查中它发现，在900万条供应商、客户和原材料记录中有差不多一半是过期或重复的，剩下的有三分之一不准确或有缺失。供应商名称有的简写有的不简写，产生了重复记录。[18]这一个案例中就包含了封闭、断裂、缺失数据的问题。

固然缺失数据可以尝试通过模糊数据集理论得到解决，但许多研究情境对数据的要求是有确定性的。大数据时代需要的不只是全数据、海量数据、实时数据，而是真正的开放、更可能接近精确、着眼于人和社会的分析方法和思路。封闭的数据平台，对断裂数据、缺失数据在分析上构成的风险的忽视会使我们仍然停留在小数据时代，更糟糕的是大数据风险，数据还在小数据时代，方法上却已经在单纯鼓吹各种应对大数据的新技术，这种不匹配造成的混乱比大数据本身带来的混乱还要危险。

在一定意义上，我们可以运用已收集的数据，先来了解如何把事情做得更好。从这个角度上，我们再来考虑创新和大数据应用。毕竟，大数据产生影响的不只是通过协同过滤技术来预测你需要什么产品，也不只是什么时候买机票会更划算一些，这只是使人类和商业变得更聪明有趣的一个方面而已，纽约大学商务教授Sinan Aral说：“科学革命之前通常是测量工具的革命”，[19]大数据如此汹涌的发展之势和席卷一切的雄心势必将会影响到科学理论研究领域，这也是为什么我们需要保持一点冷静和审慎判断的原因。此外，大数据在推动信息共享，促进社会进步方面显示出来的潜力也值得我们为更完美的解决方案努力。

诚如格尔兹所说：“热力学第二原理、自然选择原理、无意识动机概念，或生产方式的组织并没有说明所有的东西，甚至连人的事情都没有一一说明，但他们毕竟解释了某些事物;认识到这一点，我们的注意力也就转向确定这些事物到底是什么，转向使我们摆脱这些观念在其最盛极一时之际导致的大量伪科学的缠绕。”在文章的最后，借用格尔兹在《文化的解释》提出的观点，表达对大数据研究的看法，因为时至今日，大数据这个概念的模糊之处仍多于其所昭示的，可待完善与研究之处仍然很多，我们的工作才刚开始。

（编辑：温州站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

人工智能完善人力资源	智能化数字透明滑轨屏
小心陷阱！ AI算命正	成都智算中心将要对外