案例｜一文详解被阿里腾讯视作核心机密的大数据平台架构

发布时间：2022-11-16 17:04:51 所属栏目：大数据来源：互联网

导读： 如果我们能够化整为零，在企业内部从宏观、整体的角度设计和实现一个统一的大数据平台，引入单一集群、单一存储，统一服务和统一安全的架构思想，就能很好的帮助企业解决很多问题。
提到大

如果我们能够化整为零，在企业内部从宏观、整体的角度设计和实现一个统一的大数据平台，引入单一集群、单一存储，统一服务和统一安全的架构思想，就能很好的帮助企业解决很多问题。

提到大数据分析平台，不得不说Hadoop系统，Hadoop到现在也超过10年的历史了，很多东西发生了变化，版本也从0.x进化到目前的2.6版本。我把2012年后定义成后Hadoop平台时代，这不是说不用Hadoop，而是像NoSQL （Not Only SQL）那样，有其他的选型补充。

大数据分析平台

Hadoop: 开源的数据分析平台，解决了大数据（大到一台计算机无法进行存储，一台计算机无法在要求的时间内进行处理）的可靠存储和处理。适合处理非结构化数据，包括HDFS，MapReduce基本组件。

HDFS：提供了一种跨服务器的弹性数据存储系统。

MapReduce：技术提供了感知数据位置的标准化处理流程：读取数据，对数据进行映射（Map），使用某个键值对数据进行重排，然后对数据进行化简（Reduce）得到最终的输出。

Amazon Elastic Map Reduce(EMR)：托管的解决方案，运行在由Amazon Elastic Compute Cloud（EC2）和Simple Strorage Service（S3）组成的网络规模的基础设施之上。如果你需要一次性的或不常见的大数据处理，EMR可能会为你节省开支。但EMR是高度优化成与S3中的数据一起工作，会有较高的延时。Hadoop 还包含了一系列技术的扩展系统，这些技术主要包括了Sqoop、Flume、Hive、Pig、Mahout、Datafu和HUE等。

这里就不一一列举了，有很多，有感兴趣的可以和我私信讨论。

大数据平台架构

大数据计算通过将可执行的代码分发到大规模的服务器集群上进行分布式计算，以处理大规模的数据，即所谓的移动计算比移动数据更划算。但是这样的计算方式必然不会很快，即使一个规模不太大的数据集上的一次简单计算，MapReduce也可能需要几分钟，Spark快一点，也至少需要数秒的时间。

而网站处理用户请求，需要毫秒级的响应，也就是说，要在1秒内完成计算，大数据计算必然不能实现这样的响应要求。但是网站应用又需要使用大数据实现统计分析、数据挖掘、关联推荐、用户画像等一系列功能。

所以网站需要构建一个大数据平台，去整合网站应用和大数据系统之间的差异，将应用程序产生的数据导入到大数据系统，经过处理计算后再导出给应用程序使用。一个典型的网站大数据平台架构如下图：

大数据平台可分为三个部分：

1.数据采集

将应用程序产生的数据和日志等同步到大数据系统中，由于数据源不同，这里的数据同步系统实际上是多个相关系统的组合。数据库同步通常用Sqoop，日志同步可以选择Flume，打点采集的数据经过格式化转换后通过Kafka传递。

不同的数据源产生的数据质量可能差别很大，数据库中的数据也许可以直接导入大数据系统就可以，而日志和爬虫产生的数据就需要进行大量的清洗、转化处理才能有效使用。所以数据同步系统实际上承担着传统数据仓库ETL的工作。

2.数据处理

这里是大数据存储与计算的核心，数据同步系统导入的数据存储在HDFS。MapReduce、Hive、Spark等计算任务读取HDFS上的数据进行计算，再将计算结果写入HDFS。

MapReduce、Hive、Spark等进行的计算处理被称作是离线计算，HDFS存储的数据被称为离线数据。相对的，用户实时请求需要计算的数据称为在线数据，这些数据由用户实时产生，进行实时在线计算，并把结果数据实时返回用户，这个计算过程中涉及的数据主要是用户自己一次请求产生和需要的数据大数据存储系统，数据规模非常小，内存中一个线程上下文就可以处理。

在线数据完成和用户的交互后，被数据同步系统导入到大数据系统，这些数据就是离线数据，其上进行的计算通常针对（某一方面的）全体数据，比如针对所有订单进行商品的关联性挖掘，这时候数据规模非常大，需要较长的运行时间，这类计算就是离线计算。

除了离线计算，还有一些场景，数据规模也比较大，要求的处理时间也比较短。比如淘宝要统计每秒产生的订单数，以便进行监控和宣传。这种场景被称为大数据流式计算，通常用Storm、Spark Steaming等流式大数据引擎来完成，可以在秒级甚至毫秒级时间内完成计算。

3.数据输出与展示

大数据计算产生的数据还是写入到HDFS中，应用程序不可能到HDFS中读取数据，所以必须要将HDFS中的数据导出到数据库中。数据同步导出相对比较容易，计算产生的数据都比较规范，稍作处理就可以用Sqoop之类的系统导出到数据库。

（编辑：温州站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

人工智能完善人力资源	智能化数字透明滑轨屏
小心陷阱！ AI算命正	成都智算中心将要对外