加入收藏 | 设为首页 | 会员中心 | 我要投稿 温州站长网 (https://www.0577zz.com/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 大数据 > 正文

大数据介绍

发布时间:2022-11-01 15:30:27 所属栏目:大数据 来源:网络
导读: 大数据介绍目录前言1.1什么是大数据?1.2数据的变革1.3大数据的来源及应用2.1与云计算的关系2.2与数据挖掘的关系2.3与物联网、移动互联网的关系3.1分布式文件系统(GFS/HDFS)3.2Mapreduce3.

大数据介绍目录前言1.1什么是大数据?1.2数据的变革1.3大数据的来源及应用2.1与云计算的关系2.2与数据挖掘的关系2.3与物联网、移动互联网的关系3.1分布式文件系统(GFS/HDFS)3.2Mapreduce3.3NoSQL技术3.4分布式技术13范例1:谷歌公司对甲型H1N1流感的预测21智诚实业前言大数据时代的到来,是全球知名咨询公司麦肯锡最早提出的,麦肯锡称:“数据,已经渗透到当今每一个行业和业务职能领域,成为重要的生产因素。人们对于海量数据的挖掘和运用,预示着新一波生产率增长和消费者盈余浪潮的到来。”概述1.1什么是大数据?大数据(bigdata),或称巨量资料,指的是所涉及的资料量规模巨大到无法通过目前主流软件工具,在合理时间内达到获取、管理、处理、并整理成为帮助企业经营决策为目的资讯。(百度官方说法)另一种说法就是具有4V特性的数据称为大数据,包括:1、Volume(巨大的数据量)集中储存/集中计算已经无法处理巨大的数据量2、Variety(多结构化数据)文本/图片/视频/文档等3、Velocity(增长速度很快)用户基数庞大/设备数量众多/实时海量/数据指数级别增长,同时意味着需要海量数据的及时有效分析(fastdata)智诚实业单条数据并无太多价值,但庞大的数据量蕴含巨大财富。

大数据存储的多样性。大的数据库并不是固定在某个地方的,它一般分散在多个硬盘和多台电脑上。为了确保其运行的稳定性和速度,一个记录可能会分开存储在两三个地方。如果一个地方的记录更新了,其他地方的记录则只有同步更新才不会产生错误。传统的系统会一直等到所有地方的记录都更新,然而,当数据广泛地分布在多台服务器上而且服务器每秒钟都会接受成千上万条搜索指令的时候,同步更新就比较不现实了。因此,多样性是一种解决的方法。简单而言大数据是以业务规则为核心,以数据资源为基础,以运1.2数据的变革与传统的基于“小数据”开展分析问题的思维不同,“大数据”思维至少包括以下几个方面的转变:一、从抽样数据到全部数据。传统分析方法受数据量的限制,更多的采用随机样本的工作方式,有些依赖于抽样问卷之类的形式。而“大数据”的思维方法是立足于全部数据。二、从复杂算法到简单算法。“小数据”时代讲究的是复杂运算,擅长用多个变量的方程来追求数据之间的精确关系。而“大数据”思维则考虑用最简单的算法实现规律的分析。智诚实业三、从因果关系到相关关系。大数据关注“是什么”,而不是“为什么”,“为什么”是一个典型的因果关系思维。但大数据带来的只关注“是什么”是一个全新的思维。

根据成千上万甚至上亿数据的统计分析,就可以发现其中的相关关系。“大数据”更擅长通过统计分析人类所不能感知的关联性。四、从最终答案到参考答案。由于“小数据”时期追求的是精确性,因此探寻问题的最终答案或唯一答案是这一时期的主要目标,但是到了“大数据”时代,基于海量数据分析得出的结果,一般都是一种供决策参考的指向性意见。五、从经验主导到数据主导。基于“大数据”统计分析相关规律的数据科学家会可能会逐步超越目前的行业专家,因为大数据发现的新的真实联系,可能会颠覆一些传统的行业规则。“大数据”应用是情报研判的一个新的效能增长点。站在“大数据”的肩膀上,我们将会做出更为明智的决定。1.3大数据的来源及应用一、大数据的来源智诚实业大数据主要的技术介绍2.1分布式文件系统(GFS/HDFS)分布式文件系统是跨网中多台计算机存储的文件的管理系统。他的好处是“能够容忍节点故障且不丢失数据”。HDFS基本可以认为是GFS的一个简化版实现,二者因此有很多相智诚实业似之处。首先,GFS和HDFS都采用单一主控机+多台工作机的模式,由一台主控机(Master)存储系统全部元数据,并实现数据的分布、复制、备份决策,主控机还实现了元数据的checkpoint和操作日志记录及回放功能。

工作机存储数据,并根据主控机的指令进行数据存储、数据迁移和数据计算等。其次,GFS和HDFS都通过数据分块和复制(多副本,一般是3)来提供更高的可靠性和更高的性能。当其中一个副本不可用时,系统都提供副本自动复制功能。同时,针对数据读多于写的特点,读服务被分配到多个副本所在机器,提供了系统的整体性能。最后,GFSHDFS都提供了一个树结构的文件系统,实现了类似与Linux下的文件复制、改名、移动、创建、删除操作以及简单的权限管分布式文件系统很多,包括GFS,HDFS,淘宝开源的TFS,Tencent用于相册存储的TFS(TencentFS,为了便于区别,后续称为QFS),以及FacebookHaystack。其中,TFS,QFS以及Haystack需要解决的问题以及架构都很类似,这三个文件系统称为BlobFS(BlobFileSystem)。本文从分布式架构的角度对三种典型的文件系统进行对比。GFS:GFS文件允许多次写入追加数据。HDFS:文件只允许一次打开并追加数据。BlobFileSystem类似,但主要针对图片数据。2.2MapreduceMapReduce是一种编程模型,用于大规模数据集(大于1TB)的并智诚实业行运算。

概念"Map(映射)"和"Reduce(归约)",和他们的主要思想,都是从函数式编程语言里借来的,还有从矢量编程语言里借来的特性。他极大地方便了编程人员在不会分布式并行编程的情况下,将自己的程序运行在分布式系统上。当前的软件实现是指定一个Map(映射)函数,用来把一组键值对映射成一组新的键值对,指定并发的Reduce(归约)函数,用来保证所有映射的键值对中的每一个共享相同的键组。(百度官方)在Google,MapReduce用在非常广泛的应用程序中,包括“分布grep,分布排序,web连接图反转,每台机器的词矢量,web访问日志分析,反向索引构建,文档聚类,机器学习,基于统计的机器翻译...”值得注意的是,MapReduce实现以后,它被用来重新生成Google的整个索引,并取代老的adhoc程序去更新索引。MapReduce会生成大量的临时文件,为了提高效率,它利用Google文件系统来管理和访问这些文件。在谷歌,超过一万个不同的项目已经采用MapReduce来实现,包括大规模的算法图形处理、文字处理、数据挖掘、机器学习、统计机器翻译以及众多其他领域。Map:对数据组中的每一个数据进行一次处理。

Reduce:对数据组中相邻的数据进行处理,直到最后得出结果。移动计算比移动数据更经济!(节约网络带宽)。智诚实业2.3NoSQL技术NoSQL(NoSQLOnlySQL),意即“不仅仅是SQL”,是一项全新的数据库革命性运动,早期就有人提出,发展至2009年趋势越发高涨。NoSQL的拥护者们提倡运用非关系型的数据存储,相对于铺天盖地的关系型数据库运用,这一概念无疑是一种全新的思维的注入。NoSQL 在很多情况下又叫做云数据库。由于其处理数据的模式完全 是分布于各种低成本服务器和存储磁盘,因此它可以帮助网页和各种 交互性应用快速处理过程中的海量数据。 一、基础知识 NoSql 数据库都没有表(table)的概念,取而代之的是文档 (document)。文档是一个使用 JSON 格式以 key-value 方式存储数据 的结构,比如: "id":"6666", "name": "money":"10000" JSON是支持嵌套结构的,比如可以把几类信息存在一起。(如:智 诚公司信息下可包含李、罗等个人的信息内容) 一堆 document 存储到一起就叫做 collection ,而同一个 collection 里面的document 可以不一样。

与关系行数据库中表的设计不一样,采用尽可能把一次展示所需 的必要数据都存储到一起。 2.4 分布式技术 如果想要同时处理实时分析与 NoSQL 数据功能,那么你就需要分 智诚实业 布式计算技术。分布式技术结合了一系列技术,可以对海量数据进行实时分析。因为硬件非常便宜,因而让这种技术的普及变成可能。 通过对那些看起来没什么关联和组织的数据进行分析,我们可以 获得很多有价值的结果。比如说可以分发现一些新的模式或者新的行 为。运用分布式计算技术,银行可以从消费者的一些消费行为和模式 中识别网上交易的欺诈行为。 大数据与其他技术关系3.1 与云计算的关系 从技术上看,大数据与云计算的关系就像一枚硬币的正反面一样 密不可分。大数据必然无法用单台的计算机进行处理,必须采用分布式 计算架构。它的特色在于对海量数据的挖掘,但它必须依托云计算的分 布式处理、分布式数据库、云存储和虚拟化技术。如果数据是财富, 那么大数据就是宝藏,而云计算就是挖掘和利用宝藏的利器!没有强 大的计算能力,数据宝藏终究是镜中花;没有大数据的积淀,云计算 也只能是杀鸡用的宰牛刀! 3.2 与数据挖掘的关系 【说明】与数据挖掘相近的同义词有数据融合、人工智能、商务 智能、模式识别、机器学习、知识发现、数据分析和决策支持等。

智诚实业 第10 共23 数据挖掘的“数据挖掘又称数据库中的知识发现,是目前人工智能和数据库领域研究的热点问题,所谓数据挖掘是指从数据库的大量数 据中揭示出隐含的、先前未知的并有潜在价值的信息的非平凡过程。 数据挖掘是一种决策支持过程,它主要基于人工智能、机器学习、模 式识别、统计学、数据库、可视化技术等大数据观察,高度自动化地分析企业的 数据,做出归纳性的推理,从中挖掘出潜在的模式,帮助决策者调整 市场策略,减少风险,做出正确的决策。数据挖掘的方法:分类、回 归分析、聚类、关联规则、特征、变化和偏差分析、Web 页挖掘等。 数据挖掘需要人工智能、数据库、机器语言和统计分析知识等很 多跨学科的知识。再者,数据挖掘的出现需要条件,第一个条件:海 量的数据;第二个条件:计算机技术大数据量的处理能力;第三个条 件:计算机的存储与运算能力;第四个条件:交叉学科的发展。 3.3 与物联网、移动互联网的关系 物联网、移动互联网等是大数据的来源方式。 大数据系统智诚实业 第11 共23 webcontent:网络上的数据内容信息。 Logs&DGC:日志收集(收集数据console(控制台)、text(文件)、tail (UNIX tail)、syslog 等)和可穿戴设备数据。

流式处理:流式数据处理是CEP(Complex Event Processing)的一个 核心技术。通俗说就是数据的价值随着时间的流逝而降低,所以事件 出现后必须尽快地对它们进行处理,最好数据出现时便立刻对其进行 处理,发生一个事件进行一次处理,而不是缓存成一批再处理。 Machine Learning:人工智能。 向量引擎:也称为向量空间搜索引擎,方法通常适用于自由形式 (free-form) 的文本,包括帮助在向量空间中将一段文本与其他文本 区分开来的某些词。Web 页面、科学研究报告和其他形式的自然语言 作品最适于使用向量空间搜索方法。向量空间并说明如何将指定查询 投射到项空间 (term space) 中开始。 智诚实业 第12 共23 企业大数据应用一、企业大数据治理方法论 二、大数据应用 改进企业数据架构智诚实业 第13 共23 引入大数据,发挥数据协同效应三、大数据的发展 大数据在公安行业的应用一、简介 湖北省公安厅是全国最早使用大数据、云计算的公安单位 之一。是基于“云计算” 理念,对分布在公安厅信息中心的 各种硬件资源和省内公安机关内外的应用资源、数据资源进行 整合,形成统一的资源管理与调度服务架构,建立资源的云服 务模式,为各级领导、业务部门、基层民警等不同层次的用户, 提供更为有效的信息服务的应用支撑平台。

通过建立基础资源 池、资源目录、分布式查询平台等系列应用支撑软件,实现上 下级单位、内外部门之间安全可控的资源共享。 智诚实业 第14 共23 二、总体框架项目需要整合公安内外的一系列资源,包括硬件资源、应 用资源、数据资源,为了更加符合公安工作的特点,确立大数 据在公安信息中心的地位和作用,我们除了在业界公认的三个 层次的服务之外,还结合公安信息中心的特点增加了一个独立 的数据即服务(DaaS)层,专门解决数据整合、管理和服务的 问题,因此“湖北公安云”为全警提供四个层次的服务:基础 资源服务(IaaS)、平台服务(PaaS)、数据即服务(DaaS)、 软件服务(SaaS)。 1、采用“云计算”理念,利用虚拟化技术,对湖北省公 安厅现有服务器、存储、网络等硬件资源进行整合,建立虚拟 设备资源池,实现“基础设施服务(IaaS)”;为大数据的采集、 存储、加工和分析提供基础设施环境; 智诚实业 第15 共23 2、基于虚拟化技术,整合操作系统、数据库、中间件等基础软件,建立相应的服务平台,实现“平台服务(PaaS)”; 为警种和部门提供大数据应用提供运行环境; 3、对湖北省公安厅内、外部的海量数据资源进行整合, 提供面向不同层次需求的“数据服务(DaaS)”;为大数据的交 互、整合、分类、管理、安全提供数据环境; 4、通过应用整合,开发统一服务接口和公共软件应用, 建立公安数据应用软件的开发、开放平台,实现“软件服务 (SaaS)”。

大数据产业观察网 文静_大数据战略重点实验室块数据2.0^^^块数据^^^dt时代^_大数据观察

为公安机关各部门提供大数据的应用服务; 三、基础设施 智诚实业 第16 共23 基础设施服务四、数据资源整合 数据资源整合流程包括数据采集、数据整合、数据管理、 数据服务等几个主要环节。 如下图: 智诚实业 第17 共23 数据采集环节利用自动化的数据交换整合工具(ETL),将公安内、外部数据资源实时、自动的进行抽取,汇集到缓冲库; 数据整合环节在数据汇集完成后,根据不同的业务需求,对数 据进行清洗、转换等整合工作,将数据有序的存储到综合库; 数据管理环节是在数据整合完成后,对存储到综合库的数据资 源进行有效的管理,提供元数据管理、数据资源管理、数据质 量管理、资源目录等功能支撑;数据服务是在对数据进行有效 管理的基础上,对用户提供查询服务、接口服务等一系列服务, 同时为业务应用提供数据支撑。 通过数据资源整合流程,最终建立起公安的数据中心。 五、数据中心总体架构 智诚实业 第18 共23 六、数据应用模型智诚实业 第19 共23 七、总结早期,公安行业服务于办案等业务工作需要考虑的是如何 通过增加计算能力提高精确性,直接找到违法犯罪分子,当时 还是受到“小数据”思维的绝对控制。逐步因为数据量庞大, 我们传统的ORACLE 不能处理了,效率低下了,因此想到了分 布式计算。

但是,很快,我们发现这个可以去服务实战工作, 但是,似乎还不是大数据的主攻方向,特别是对照商业化上的 大数据应用,比如我们 google,阿里。在大数据中查询不是 最主要的应用。大数据,更能体现一种行为,用大量的数据, 去反映一个客观事实。大数据的研究方向应该是通过各种工具 跟方法对大数据分析应用,从而发现大数据中隐含的知识,特 智诚实业 第20 共23 别是关系。二是规律分析将是将来一段时期公安大数据应用的重点。是当前大数据思维在公安行业落地的主攻方向。在“小 数据”时代,由于我们掌握的数据不够多,不够全,也不够准 确,因此我们的决策更依赖直觉和经验,但是,随着“大数据” 时代的来临,以往处于主导位臵的公安传统业务专家的地位会 逐步改变,“大数据”思维将大大优化我们警务“知识库”。迎 接“大数据”时代最需要的是一种全新的思维变革。“大数据” 破题的真正关键,不在于掌握数据之多,存储之强,也不在于 软件技术之先进,更不在于机器运算速度之快,而在于领会贯 通“大数据”的思维方式。 智诚实业 第21 共23 范例1:谷歌公司对甲型H1N1流感的预测 2009 年出现了一种新的流感病毒。这种甲型H1N1 流感结合了导 致禽流感和猪流感的病毒的特点,在短短几周之内迅速传播开来。

全 球的公共卫生机构都担心一场致命的流行病即将来袭。有的评论家甚 至警告说,可能会爆发大规模流感,类似于1918 年在西班牙爆发的影 响了5 亿人口并夺走了数千万人性命的大规模流感。更糟糕的是,我 们还没有研发出对抗这种新型流感病毒的疫苗。公共卫生专家能做的 只是减慢它传播的速度。但要做到这一点,他们必须先知道这种流感 出现在哪里。 美国,和所有其他国家一样,都要求医生在发现新型流感病例时 告知疾病控制与预防中心。但由于人们可能患病多日实在受不了了才 会去医院,同时这个信息传达回疾控中心也需要时间,因此,通告新 流感病例时往往会有一两周的延迟。而且,疾控中心每周只进行一次 数据汇总。然而,对于一种飞速传播的疾病,信息滞后两周的后果将 是致命的。这种滞后导致公共卫生机构在疫情爆发的关键时期反而无 所适从。 在甲型H1N1 流感爆发的几周前,互联网巨头谷歌公司的工程师们 在《自然》杂志上发表了一篇引人注目的论文。它令公共卫生官员们 和计算机科学家们感到震惊。文中解释了谷歌为什么能够预测冬季流 感的传播:不仅是全美范围的传播,而且可以具体到特定的地区和州。 谷歌通过观察人们在网上的搜索记录来完成这个预测,而这种方法以 智诚实业 第22 共23 前一直是被忽略的。

谷歌保存了多年来所有的搜索记录,而且每天都会收到来自全球超过30 亿条的搜索指令,如此庞大的数据资源足以支 撑和帮助它完成这项工作。 谷歌公司把5000 万条美国人最频繁检索的词条和美国疾控中心 在2003 年至2008 年间季节性流感传播时期的数据进行了比较。他们 希望通过分析人们的搜索记录来判断这些人是否患上了流感,其他公 司也曾试图确定这些相关的词条,但是他们缺乏像谷歌公司一样庞大 的数据资源、处理能力和统计技术。 虽然谷歌公司的员工猜测,特定的检索词条是为了在网络上得到 关于流感的信息,如“哪些是治疗咳嗽和发热的药物”,但是找出这 些词条并不是重点,他们也不知道哪些词条更重要。更关键的是,他 们建立的系统并不依赖于这样的语义理解。他们设立的这个系统唯一 关注的就是特定检索词条的使用频率与流感在时间和空间上的传播之 间的联系。谷歌公司为了测试这些检索词条,总共处理了4.5 同的数学模型。在将得出的预测与2007年、2008 年美国疾控中心记录 的实际流感病例进行对比后,谷歌公司发现,他们的软件发现了45 检索词条的组合,将它们用于一个特定的数学模型后,他们的预测与官方数据的相关性高达97%。

和疾控中心一样,他们也能判断出流感是 从哪里传播出来的,而且判断非常及时,不会像疾控中心一样要在流 感爆发一两周之后才可以做到。 智诚实业 第23 共23 所以,2009年甲型H1N1 流感爆发的时候,与习惯性滞后的官方 数据相比,谷歌成为了一个更有效、更及时的指示标。公共卫生机构 的官员获得了非常有价值的数据信息。惊人的是,谷歌公司的方法甚 至不需要分发口腔试纸和联系医生——它是建立在大数据的基础之上 的。这是当今社会所独有的一种新型能力:以一种前所未有的方式, 通过对海量数据进行分析,获得以一种前所未有的方式,通过对海量 数据进行分析,获得有巨大价值的产品和服务,或深刻的洞见。 大价值的产品和服务,或深刻的洞见。基于这样的技术理念和数据储 备,下一次流感来袭的时候,世界将会拥有一种更好的预测工具,以 预防流感的传播。

(编辑:温州站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!