大数据——及其简明版进阶方案

发布时间：2023-01-05 08:00:40 所属栏目：大数据来源：网络

导读： 1.什么才是大数据？便于理解，以百度利用实时大数据分析，并进行可视化处理后推出的百度通勤图来解释大数据。以下图一就是以北京市为例的通勤图大数据了，该图具有实时、动态、基于地理位置

1.什么才是大数据？便于理解，以百度利用实时大数据分析，并进行可视化处理后推出的百度通勤图来解释大数据。以下图一就是以北京市为例的通勤图大数据了，该图具有实时、动态、基于地理位置可定位、缩放等功能。我们可以通过下面网址查看：

它展示的内容就是基于大数据技术里典型的大数据分析、数据处理和数据可视化等IT技术，而其处理的原始数据就是海量的北京市早晨上班人员的出勤数据。

“大数据”是对复杂、多样、可变、即时、真实的海量数据进行高速运算处理,挖掘数据中包含的信息和价值,从而“让数据说话”。但是大数据的重要价值并不在于大，而在于分析出隐藏在大数据内部的、各类数据之间的可利用的价值。而这种能够被挖掘出的可利用价值，才是大数据的价值所在。

2.为实现大数据四方面的特征——体量巨大、类型繁多、非破坏式使用和速度,这需要一些技术上的突破,包括分布式文件系统(Hadoop)的发展,一种方便快捷地了解不同数据的方法(最早是谷歌的 MapReduce,还有最近的 Apache Spark),以及根据需要访问和移动数据的云/互联网基础设施。

3.MapReduce。这种编程技术首先把数据映射到一系列键/值对,对类似的键值进行计算,将它们缩减为单个值,然后在数百台或者数千台低成本机器上并行处理每一批数据,从而简化了大规模数据集的处理。这种庞大的并行特性使谷歌能够从越来越大量的数据中更快的得到搜索结果。

4.Hadoop，是由两项关键服务组成的:

●使用 Hadoop 分布式文件系统(HDFS),可靠的存储数据。

●使用称为 MapReduce 的技术进行高性能并行数据处理。

5.虽然 Hadoop 为数据存储和并行处理提供了一个平台,但真正的价值来自于附加组件、交叉集成和技术的定制实现。

这些子项目为平台增加了功能和新特性:

●Hadoop Common:支持其他 Hadoop 子项目的公共实用程序。

●Chukwa:一个用于管理大型分布式系统的数据采集系统。

●Hbase:一个可扩展的分布式数据库,为大型表提供结构化数据存储支持。

●HDFS:一种分布式文件系统,支持对应用数据的大吞吐量访问。

●Hive:提供数据摘要和即席查询的数据仓库基础设施。

●MapReduce:计算集群上大数据集分布式处理的软件框架。

●Pig:并行计算的高级数据流语言和执行框架。

●ZooKeeper:分布式应用的高性能协调服务。

6.大部分 Hadoop 平台的实现应至少包括其中的一些子项目,因为它们通常是开发大数据所必需的。例如,大多数企业选择使用 HDFS 作为主要的分布式文件系统,把 HBase 作为数据库,它可以存储数十亿条数据。使用 MapReduce 或者最近的 Spark 几乎是必须的,因为它们提高了 Hadoop 平台的速度和敏捷性。

7. Apache Hadoop 是以 MapReduce 为核心的一种开源框架,两年后才开发出来。Hadoop 最初是用来索引现在不太常用的 Nutch 搜索引擎的,现在几乎所有的主要行业都使用 Hadoop 来进行多种大数据工作。在 Hadoop 的分布式文件系统和 YARN(Yet Another Resource Negotiator,另一种资源调度器)的支持下,该软件使用户能够处理分布在数千台设备上大量的数据集,就好像它们都在一台巨大的机器上一样。

8.2009 年,加州大学伯克利分校的研究人员开发了 Apache Spark 来替代 MapReduce。Spark 使用内存存储进行并行计算,因此,它比 MapReduce 快 100 倍。Spark 可以作为一个独立的框架或者在Hadoop 内部运行。

9. 即使使用 Hadoop,您仍然需要一种方法来存储和访问数据。这通常是通过 MongoDB、CouchDB 或者 Cassandra 等 NoSQL 数据库来实现的,它们专门处理分布在多台机器上的非结构化或者半结构化数据。对于数据仓库,大量不同类型的数据融合成统一的格式,并存放在一个数据存储中,与数据仓库不同,这些工具不会改变数据的根本性质或者位置——电子邮件仍然是电子邮件,传感器的数据仍然是传感器的数据,而且可以存储在任何地方。

10.体量巨大的数据存储在机器集群上的 NoSQL 数据库中,如果您不使用这些数据,那就体现不出这种方式的优势所在。而这才是大数据分析的用武之地。Tableau、Splunk 和 Jasper BI等工具支持您解析数据,以识别模式、提取含义,并揭示出新的深度分析结果。您由此要开展的工作会因您的需求而有所不同。

11.针对大数据技术，完整的可以分为4层堆栈式技术架构来理解。

第一层（基础层）上，提供了一个高度自动化且可扩展、计算和存储的大数据平台。作为底层，针对这层的IT技术，主要是由专门从事大数据架构方面软件开发和性能优化的研究人员或软件工程师完成的，属于大数据技术的基础架构。

第二层（管理层）上，主要涉及数据的存储和管理，一般由大数据的管理平台——数据库管理系统（DBMS）提供来管理各类数据。这个也一般多属于软件行业工作者中从事数据库相关工作人员的工作范围。

第三层（分析层）上，主要涉及大数据应用前所需的大数据分析，一般需要基于统计学的数据挖掘和机器学习算法。在这层上做事的一般属于数据科学家大数据爬虫，并可以借助大数据分析平台事半功倍。

第四层（应用层）上，主要涉及一些具体的大数据应用，比如帮助企业进行决策和为终端客户提供服务等，会和大数据预测技术相关。在这层上的应用主要是根据具体用户需求来的。

12.大数据包括收集、存储和分析，它需要通过技术的支持就可进行，即便是小公司，只要有了相关的技术支持，如爬虫技术、云计算、No-SQL 技术，便可使用大数据技术。大数据通过对大量数据的解析才能分析出数据中隐藏的规律，在细密的分析、挖掘下，个人隐私更容易遭到暴露。

（1）获取数据的主要方式（渠道）

面向有着足够人数使用的服务器或系统的日志进行信息采集。

利用网络获取数据技术，如爬虫技术，可对整个网页页面的信息进行收集，例百度贴吧当中，楼主、贴主发送贴子的时间、内容截取下来储存分析；数据库采集也是一种方式，比如大公司的数据库、大众常用的中国知网、万方、维普的数据库。

（2）分析数据技术

分析数据技术是大数据的核心技术，并且分析技术是多种多样的，如：数据仓库、数据库、数据挖掘技术、社交网络分析技术、信息检索技术、自然语言处理技术、云计算、No-SQL 技术。现在使用较为普遍的是由 Apache 基金会研究开发的分布式系统基础架构 Hadoop，而 Hadoop 的框架最核心的设计就是为海量数据提供储存的 HDFS 和为海量数据提供计算的谷歌大法宝 MapReduce。

（3）存储原理

HDFS（Hadoop Distributed File System），其设计之处就是为了提高超大文件的存取和读取速度，它的读取方式是把超大文件分割成多个 block（数据库中的最小存储和处理单位）在多个 dataNode（存储节点，一般有多台机器）备份并存储的，小文件并不会因其容量小而得以提高访问和读取速度，反之可能会降低。并且 HDFS 还具有高吞吐量访问、高容错性、容量扩充的好处。HDFS 由 Namenode 和 Datanode 组成。Namenode 是管理文件的命名空间，并且能够记录节点的信息，但它不能进行永久保存。Datanode 是文件系统的工作节点，负责存储和检索数据块。在 HDFS 中，Namenode 相当于一个管理者 Datanode 依靠 Namenode 进行节点内文件的重建。因此，Namenode 相当重要，一旦失去 Namenode，HDFS 就无法正常运行。为了尽量避免因运行 Namenode 的机器挂掉而导致系统中文件丢失，Hadoop 提供了两种容错机制，第一种是将本地硬盘中的重要文件备份，也就是 Hadoop 通过配置让 Namenode 将它持久化的文件写录到不同的文件系统中；

第二种是运行一个辅助的 Namenode，即第二 Namenode，它能保存合并后的命名空间即 namespace image（namenode 管理文件资源）的一个备份。

（5）处理原理

MapReduce 是一种编程模型，用于大规模数据集（＞1TB）的并行运算。Map（映射）和Reduce（归纳）是其主要思想。Mapreduce 是大数据当中不可缺失的组成成分，为大数据提供分析和计算处理技术。Mapreduce在运行中主要分为五个阶段：input 阶段，Hadoop 将 Mapreduce的输入数据划分成等长的小数据块，即输入分片，Hadoop 为每个分片构建一个 map 任务；Map 阶段，运行过程中对某种输入格式的一条记录解析成一条或多条记录；shuffle 阶段，对中间数据的控制，作为 reduce 的输入；Reduce 阶段，对相同 key 的数据进行合并；output 阶段，按照格式输出到指定目录。

13.大数据是怎样运行的

第一步，将由用户所使用的 pc 端、andorid 端、ios 端、Web，以及服务器日志、数据库得到的数据资源上传至 Nginx服务器。

第二步，基础框架 Hadoop 提供存储技术（HDFS）和数据分析处理技术（Mapreduce），把数据分块存储后，用Mapreduce 进行第一轮分流处理，并放入第一个数据库中，再用 Mapreduce 做二次处理，处理后的数据放入第二个数据库。

第三步，经数据的转换，使通过大数据收集、处理后的信息在发掘出其更大的价值之后，得以更加直观地以文字的形式展现出来。

西安电子科技大学的李莹在《大数据时代行动“可数据化”的人文关怀》里提到，大数据时代科技的进步，使得不被外界关注的普通人的行为数据都被精确地记录下来。这种持续性的关注带来了生活的便利，也甚至不用大数据搜索就能通过大数据定位来找到每个个体，但这种关注也伴随着监视，令人不安。因此，要实现人性中的自由和便利这两个属于自我的维度时，在这个原有生活方式和平衡已经被大数据打破的今天，是否可以通过人文关怀来平衡？

大数据技术 - 简版进阶方案

要想成为数据科学家, 通常可以选修网上相关课程，如coursera和小象学院．这里我们面向Excel为基础的中小企业初学者设计一个简版进阶方案．

第0级：电子表格Excel -- 实现简单的数据分析与图表

第1级：关系数据库和SQL语言，例如Access和MySQL -- 利用数据库查询聚合大量业务数据纪录

第2级：基础的编程语言，例如Python/R，Java -- 通过程序将数据处理流程自动化

第3级：在程序中访问数据库，例如ORM, ODBC, JDBC -- 进一步提高数据处理自动化程度

第4级：了解一个NoSQL数据库，例如redis，mongodb，neo4j，elasticsearch -- 根据业务需要选择一个合用的就行,传统关系数据库的性能未必不够用.

第5级：了解一点数据分析(含机器学习/数据挖掘)常识，如线性回归，多项式拟合，逻辑回归，KNN聚类，决策树，Naive贝叶斯等．Python/R/Java都有现成实现

第6级：如果需要使用变态多的计算/存储资源，学习云计算平台，如亚马逊的EC2, S3, Google Compute Engine, Microsoft Azure

第7级：如果要处理变态多的数据，学习分布式计算Hadoop和MapReduce的原理，然后使用一个现成的实现，如Amazon Elastic MapReduce (Amazon EMR)

第8级：如果要在变态多的数据上做数据分析，学习spark, mahout 或任何一个SQL on Hadoop．

到此恭喜你，在任何一个＂大数据群＂都可以指点江山了．

大数据爬虫_大数据爬虫框架_大数据爬虫

参考文献：

[1]康树峰. 什么是“大数据”[N]. 人民武警报,2018-06-30(004).

[2]Charles. 什么是大数据？您需要知道的一切[N]. 计算机世界,2017-10-16(008).

[3]陈曈,林捷.大数据是什么[J].电脑知识与技术,2017,13(13):10-11.

[4]朱滢颖.什么是大数据[J].数字通信世界,2018(04):283-284.

[5]hao/learn-big-data.md at master · memect/hao · GitHub

（编辑：温州站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

人工智能完善人力资源	智能化数字透明滑轨屏
小心陷阱！ AI算命正	成都智算中心将要对外