加入收藏 | 设为首页 | 会员中心 | 我要投稿 温州站长网 (https://www.0577zz.com/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 大数据 > 正文

大数据架构师顶级思维与架构讲解

发布时间:2023-01-08 11:31:13 所属栏目:大数据 来源:网络
导读: 本来是一直在CSDN创作关于大数据方面的东西,但感觉那里更适合放一些实际代码或者框架知识的地方,所以有些东西不知道要去哪里讲述记录,所以初来乍到大数据计算框架,希望彼此交流成长。

本来是一直在CSDN创作关于大数据方面的东西,但感觉那里更适合放一些实际代码或者框架知识的地方,所以有些东西不知道要去哪里讲述记录,所以初来乍到大数据计算框架,希望彼此交流成长。

感觉最近处于一个职业瓶颈,对于大数据框架的广泛度与框架应用的认知深度已经具备架构师的资格,但是就像盖房子有了砖瓦,缺少骨架与内饰设计一样无法入住或者住的无法心情愉悦。

寻找一些顶级架构师的成长之路,发现提出的核心竞争力是:对架构设计的升维认知,以及所具备的顶级思维模型。

的确,有大厂的实践而产出的大数据架构设计固然优秀,但直接照搬copy就十分low,身为公司顶级架构,根据业务场景Balance的架构设计思维模型,所处公司的业务特点、请求并发、数据规模、数据重要性、针对人群、数据重要性等场景给出灵活优雅的架构设计方案,并可以满足公司未来1年以上的业务发展需求,留出应用延展扩容的“接口”。

现在架构模式很多,包括不限于OLTP架构、OLAP离线架构、OLAP实时架构Lambda架构、Kappa架构、中台化架构、云原生架构等。熟悉各个架构模式,扬长避短接入业务,满足不同数据应用场景,实现降本增效,加上本身的技术广与深,才能成为一个无惧一切难度的顶级架构师。

以下简单说一下主流架构模式

1、OLTP架构(联机事务处理):

简单点:主要用户与数据库(数据存储位置)之间的交互,新增、更新、删除等事务性操作。

echarts大数据框架_大数据计算框架_大数据框架

2、OLAP架构(联机分析处理):

OLAP系统按照其存储器的数据存储格式可以分为关系OLAP(RelationalOLAP,简称ROLAP)、多维OLAP(MultidimensionalOLAP,简称MOLAP)和混合型OLAP(HybridOLAP,简称HOLAP)三种类型。

ROLAP

ROLAP将分析用的多维数据存储在关系数据库中并根据应用的需要有选择的定义一批实视图作为表也存储在关系数据库中。不必要将每一个SQL查询都作为实视图保存,只定义那些应用频率比较高、计算工作量比较大的查询作为实视图。对每个针对OLAP服务器的查询,优先利用已经计算好的实视图来生成查询结果以提高查询效率。同时用作ROLAP存储器的RDBMS也针对OLAP作相应的优化,比如并行存储、并行查询、并行数据管理、基于成本的查询优化、位图索引、SQL的OLAP扩展(cube,rollup)等等。

MOLAP

MOLAP将OLAP分析所用到的多维数据物理上存储为多维数组的形式,形成“立方体”的结构。维的属性值被映射成多维数组的下标值或下标的范围,而总结数据作为多维数组的值存储在数组的单元中。由于MOLAP采用了新的存储结构,从物理层实现起,因此又称为物理OLAP(PhysicalOLAP);而ROLAP主要通过一些软件工具或中间软件实现,物理层仍采用关系数据库的存储结构,因此称为虚拟OLAP(VirtualOLAP)。

HOLAP

由于MOLAP和ROLAP有着各自的优点和缺点(如下表所示),且它们的结构迥然不同,这给分析人员设计OLAP结构提出了难题。为此一个新的OLAP结构——混合型OLAP(HOLAP)被提出,它能把MOLAP和ROLAP两种结构的优点结合起来。迄今为止,对HOLAP还没有一个正式的定义。但很明显,HOLAP结构不应该是MOLAP与ROLAP结构的简单组合,而是这两种结构技术优点的有机结合,能满足用户各种复杂的分析请求。

联机分析处理的主要特点,是直接仿照用户的多角度思考模式,预先为用户组建多维的数据模型,在这里,维指的是用户的分析角度。例如对销售数据的分析,时间周期是一个维度,产品类别、分销渠道、地理分布、客户群类也分别是一个维度。一旦多维数据模型建立完成,用户可以快速地从各个分析角度获取数据,也能动态的在各个角度之间切换或者进行多角度综合分析,具有极大的分析灵活性。这也是联机分析处理被广泛关注的根本原因,它从设计理念和真正实现上都与旧有的管理信息系统有着本质的区别。

事实上,随着数据仓库理论的发展,数据仓库系统已逐步成为新型的决策管理信息系统的解决方案。数据仓库系统的核心是联机分析处理,但数据仓库包括更为广泛的内容。

概括来说,数据仓库系统是指具有综合企业数据的能力,能够对大量企业数据进行快速和准确分析,辅助做出更好的商业决策的系统。它本身包括三部分内容:

1、数据层:实现对企业操作数据的抽取、转换、清洗和汇总,形成信息数据,并存储在企业级的中心信息数据库中。

2、应用层:通过联机分析处理,甚至是数据挖掘等应用处理,实现对信息数据的分析。

3、表现层:通过前台分析工具,将查询报表、统计分析、多维联机分析和数据发掘的结论展现在用户面前。

从应用角度来说,数据仓库系统除了联机分析处理外,还可以采用传统的报表,或者采用数理统计和人工智能等数据挖掘手段,涵盖的范围更广;就应用范围而言,联机分析处理往往根据用户分析的主题进行应用分割,例如:销售分析、市场推广分析、客户利润率分析等等,每一个分析的主题形成一个OLAP应用,而所有的OLAP应用实际上只是数据仓库系统的一部分。

简单点:理解数仓的概念,分布式计算,就理解此模式了,此模式分离线和实时,具体就要看公司业务场景,如果短时间内的分析结果对业务有帮助的话那就做实时数仓,数仓的建设就要根据数据来钻取划分层次,然后针对不通维度进行切片、切块,最后旋转获取不同角度的数据。针对离线实时共存的Lambda架构与使用框架后期专门写一篇。

3、Lambda架构

简单点:就是批+流,流保证数据的实时性,批保证数据的准确性,t+1覆盖实时

4、Kappa架构

这种架构,相当于在Lambda架构上去掉了批处理层(Batch Layer),只留下单独的流处理层(Speed Layer)。通过消息队列的数据保留功能,来实现上游重放(回溯)能力。

简单点:就是批流一体的实时处理,保证实时性和唯一性,实现上主要是容错有回溯能力,此架构也会单独处一篇,讲述使用框架与实现方式。

5、中台化架构

“中台"是强调资源整合、能力沉淀的平台体系,为"前台"的业务开展提供底层的技术、数据等资源和能力的支持, 简单来说就是"中台将集合整个集团的运营数据能力、产品技术能力,对各前台业务形成强力支撑”。

简单点:将所有数据均接收到一个点,然后基于这一个点向外输出,假如kafka是这个点,可以通过flume、logstash、spark等等将数据写入一个topic,然后A消费这个topic将其中有用的数据筛出使用前端展示,B消费这个topic将其中有用的数据筛出供数据分析等等。

6、云原生架构

CNCF给出了云原生应用的三大特征:

云原生包含了一组应用的模式,用于帮助企业快速,持续,可靠,规模化地交付业务软件。云原生由微服务架构,DevOps 和以容器为代表的敏捷基础架构组成。

简单点:可以先理解一下容器的概念,简单来说就是将一个大的空间切分成几个小空间,空间彼此隔离,就可以达到空间重用,应用唯一的状态。

(编辑:温州站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!