云计算平台中实现大数据量分布式处理的系统及方法与流程

发布时间：2022-12-21 13:43:26 所属栏目：云计算来源：网络

导读：
本发明涉及计算机应用领域，特别涉及高吞吐量流式数据的分析类系统领域，具体是指一种云计算平台中实现大数据量分布式处理的系统及方法。
背景技术：
随着云计算、移动互联网和物联网等新

本发明涉及计算机应用领域，特别涉及高吞吐量流式数据的分析类系统领域，具体是指一种云计算平台中实现大数据量分布式处理的系统及方法。

背景技术：

随着云计算、移动互联网和物联网等新一代信息技术的创新和应用普及，人类早已进入了大数据时代，越来越多的企业需要利用对于大数据的分析来协助企业作出决策，而不同于以往仅仅只是利用经验及直觉。因此，企业对于大数据量的分析处理具有很大的需求。

分布式数据处理系统(distributeddatastreammanagementsystem，ddsms)是可以对数据进行分布式处理的系统。ddsms可以极大地缩短数据处理时间，提高响应速度，在实际生活中具有极其广泛的用途。一般来说，一个ddsms具有以下的功能：

(1)由于物理存储空间的限制和处理效率的要求，对数据流进行在线处理时，一般只扫描数据一遍；

(2)在一定的时间内，能够对数据进行排序，使无序变为有序；

(3)对用户而言，传统的ddsms的程序设计使用户对数据的查询具有很好的实时性；

(4)传统的ddsms在处理数据中，当遇到数据流的数据量巨大已超过系统的承载能力时，随机或者有选择地清除一些数据以缓解系统数据的膨胀；

(5)传统的ddsms对异常数据的处理也提出了一些要求，首先要迅速，同时要合乎实时的要求；

(6)及时的数据用户的接口能够为用户提供方便的数据信息查询。

基于云计算的大数据统一分析处理方法，可以将海量结构化、非结构化和半结构化数据分布式处理，能解析异构数据的查询分析请求，按照查询分析的数据对象所在位置调度数据处理计算，将数据分析处理计算分布到各数据存储节点上，实现异构数据的并行分析处理，提供统一数据访问接口具有克服了大数据分析处理的复杂性和挑战性，满足大数据处理的规模不断增长和实时性需求等优点。

然而，该技术虽然能将不同结构的数据进行高速处理，但却不能将有效地将其中一些有关系的数据关联起来，在高速处理大量数据的同时，若能将其中有关系的数据关联起来，会更加满足企业的需求。

技术实现要素：

本发明的目的是克服了上述现有技术的缺点，提供了一种在处理大量数据能根据企业的业务需求对数据进行关联、系统架构简单、系统兼容性较强、工作性能稳定可靠、适用范围较为广泛的云计算平台中实现大数据量分布式处理的系统及方法。

为了实现上述目的，本发明的云计算平台中实现大数据量分布式处理的系统及方法如下：

该云计算平台中实现大数据量分布式处理的系统，其主要特点是，所述的系统包括数据筛选处理引擎子系统、数据关联分析引擎子系统和数据监控运维引擎子系统，该数据筛选处理引擎子系统分别与该数据关联分析引擎子系统和数据监控运维引擎子系统均相连接，且该数据关联分析引擎子系统与数据监控运维引擎子系统相连接；

该数据筛选处理引擎子系统包括：

数据合法性校验模块，与该数据监控运维引擎子系统相连接，且用于对输入的数据进行合法性检查；

数据持久化处理模块，与该数据监控运维引擎子系统相连接，且用于将通过该数据合法性校验模块合法性检查的数据转换为相关的业务对象；

数据分类处理模块，分别与该数据关联分析引擎子系统和数据监控运维引擎子系统均相连接，且用于将通过该数据持久化处理模块的业务对象根据数据生成的业务对象进行分类，将不同的业务对象分别发送到数据关联分析引擎子系统；

数据备份模块，与该数据监控运维引擎子系统相连接，用于将该数据关联分析引擎子系统收到的数据进行备份。

该数据关联分析引擎子系统包括：

数据业务模型校验模块，分别与该数据筛选处理引擎子系统和数据监控运维引擎子系统均相连接，用于将从数据筛选处理引擎子系统接收的数据进行校验，筛选出符合关联条件的数据；

数据业务关联模块，与该数据监控运维引擎子系统相连接，用于将通过数据业务模型校验模块校验的数据进行处理。

该数据监控运维引擎子系统包括：

数据处理异常处理模块，分别与该数据筛选处理引擎子系统和数据关联分析引擎子系统均相连接，用于将该数据筛选处理引擎子系统和数据关联分析引擎子系统无法处理的数据备份，并记录处理异常情况；

日志处理模块，分别与该数据筛选处理引擎子系统和数据关联分析引擎子系统均相连接，用于监控该数据筛选处理引擎子系统和数据关联分析引擎子系统运行过程的日志信息；

数据反馈监控模块，分别与该数据筛选处理引擎子系统和数据关联分析引擎子系统均相连接，用于展示通过该数据业务关联模块关联后的数据并生成预警提醒。

该基于上述的系统实现云计算平台中大数据量分布式处理控制的方法，其主要特点是，所述的方法包括以下步骤：

(1)该数据合法性校验模块、数据持久化处理模块和数据分类处理模块对数据进行筛选处理云计算分布式系统，包括以下步骤：

(1.1)该数据合法性校验模块配置数据合法性校验规则，并对数据进行规则验证；

(1.2)该数据持久化处理模块将通过数据合法性校验的数据转换成业务对象；

(1.3)该数据分类处理模块将该业务对象发送至数据关联分析引擎子系统；

(2)该数据业务模型校验模块和数据业务关联模块对筛选后的数据关联分析；

(3)该数据监控运维引擎子系统将筛选结果和分析结果反馈给企业。

较佳地，所述的步骤(1.3)之后还包括以下步骤：

(1.4)该系统创建不同数据格式的接收记录表，并将筛选后的数据备份到数据库中。

较佳地，该步骤(1.4)之后还包括以下步骤：

(1.5)该数据处理异常处理模块判断各模块是否有故障，如果是，则该数据处理异常处理模块将故障模块正在处理的数据转化为xml文件并保存，然后定时对数据重发直至数据处理成功；如果不是，则继续步骤(1.1)。

较佳地，该步骤(1.1)中该数据合法性校验模块配置数据合法性校验规则，具体为：

该数据合法性校验模块通过xsd文件配置数据合法性校验规则。

较佳地，该步骤(1.1)中该数据合法性校验模块对数据进行规则验证，具体为：

该数据合法性校验模块将半结构化数据转换为java.io.bytearrayinputstream，数据合法性校验模块并利用javax.xml.validation.schema和javax.xml.validation.schemafactory对数据进行规则验证。

较佳地，该步骤(1.2)中该数据持久化处理模块将通过数据合法性校验的数据转换成业务对象，具体为：

该数据持久化处理模块将通过数据合法性校验的数据利用jaxb工具根据schema生成实体类，并调用messagehandleimpl工具类，将生成实体类转换成持久化的业务对象。

较佳地，该步骤(1.3)中该数据分类处理模块将该业务对象发送至数据关联分析引擎子系统，具体为：

数据分类处理模块将该业务对象根据业务对象的类型标志通过http协议发送至数据关联分析引擎子系统。

较佳地，该步骤(1.4)中该接收记录表包括数据唯一id和创建时间字段。

较佳地，所述的步骤(2)具体包括以下步骤：

(2.1)该数据业务模型校验模块制定业务规则，并将接收到的数据进行相关性的业务模型校验；

(2.2)该数据业务关联模块将业务对象进行关联；

较佳地，所述的步骤(2.1)中该数据业务模型校验模块将接收到的数据进行相关性的业务模型校验，具体为：

该数据业务模型校验模块判断业务模型是否为永久性业务模型，如果是，则所有进入数据关联分析引擎子系统的数据都需要校验，然后继续步骤(2.2)；否则继续步骤(2.2)。

该步骤(2.2)中该数据业务关联模块通过接收记录表中的数据唯一id字段将不同的业务对象根据业务关联主键关联。

较佳地，该步骤(2.1)和(2.2)之间包括以下步骤：

(2.1.1)该数据业务模型校验模块对通过业务模型校验的数据进行二次校验，并生成反馈结果。

较佳地，该数据监控运维引擎子系统中包括数据反馈监控模块，该步骤(3)具体包括以下步骤：

(3.1)该系统将结果反馈服务分布式部署到不同服务器，并创建数据反馈记录表；

(3.2)该数据反馈监控模块将筛选结果通知企业，并将反馈内容记录到数据反馈记录表中。

较佳地，该步骤(3.1)中该数据反馈记录表包括数据唯一id、反馈内容和反馈时间字段。

较佳地，所述的方法中还包括日志监控处理操作，具体为：

该日志处理模块记录该数据筛选处理引擎子系统工作时的系统正常日志，并记录该数据处理异常处理模块工作时的系统异常日志。

采用了该发明的云计算平台中实现大数据量分布式处理的系统及方法，业务开发人员在实现企业对于大数据量的相关需求时，可用本发明中的方法有效提升数据处理速度，并且可根据企业需求，不仅灵活制定数据的校验规则，同时还能根据业务量随时进行分布式部署，优化数据的处理引擎，提高了系统的实用性，同时系统架构简单，系统兼容性较强，工作性能稳定可靠，适用范围较为广泛。

附图说明

图1为本发明的云计算平台中实现大数据量分布式处理的系统的总体架构图。

图2为本发明的云计算平台中实现大数据量分布式处理的方法中的关于数据筛选处理引擎的流程框图。

图3为本发明的云计算平台中实现大数据量分布式处理的方法中的关于数据关联分析引擎的流程框图。

具体实施方式

为了能够更清楚地描述本发明的技术内容，下面结合具体实施例来进行进一步的描述。

本发明的该云计算平台中实现大数据量分布式处理的系统，其中包括数据筛选处理引擎子系统、数据关联分析引擎子系统和数据监控运维引擎子系统，所述的数据筛选处理引擎子系统分别与所述的数据关联分析引擎子系统和数据监控运维引擎子系统均相连接，且所述的数据关联分析引擎子系统与数据监控运维引擎子系统相连接；

所述的数据筛选处理引擎子系统包括：

数据合法性校验模块，与所述的数据监控运维引擎子系统相连接，且用于对输入的数据进行合法性检查；

数据持久化处理模块，与所述的数据监控运维引擎子系统相连接，且用于将通过所述的数据合法性校验模块合法性检查的数据转换为相关的业务对象；

数据分类处理模块，分别与所述的数据关联分析引擎子系统和数据监控运维引擎子系统均相连接，且用于将通过所述的数据持久化处理模块的业务对象根据数据生成的业务对象进行分类，将不同的业务对象分别发送到数据关联分析引擎子系统；

数据备份模块，与所述的数据监控运维引擎子系统相连接，用于将所述的数据关联分析引擎子系统收到的数据进行备份。

所述的数据关联分析引擎子系统包括：

数据业务模型校验模块，分别与所述的数据筛选处理引擎子系统和数据监控运维引擎子系统均相连接，用于将从数据筛选处理引擎子系统接收的数据进行校验，筛选出符合关联条件的数据；

数据业务关联模块，与所述的数据监控运维引擎子系统相连接，用于将通过数据业务模型校验模块校验的数据进行处理。

所述的数据监控运维引擎子系统包括：

数据处理异常处理模块，分别与所述的数据筛选处理引擎子系统和数据关联分析引擎子系统均相连接，用于将所述的数据筛选处理引擎子系统和数据关联分析引擎子系统无法处理的数据备份，并记录处理异常情况；

日志处理模块，分别与所述的数据筛选处理引擎子系统和数据关联分析引擎子系统均相连接，用于监控所述的数据筛选处理引擎子系统和数据关联分析引擎子系统运行过程的日志信息；

数据反馈监控模块，分别与所述的数据筛选处理引擎子系统和数据关联分析引擎子系统均相连接，用于展示通过所述的数据业务关联模块关联后的数据并生成预警提醒。

本发明中，该基于上述的系统实现云计算平台中大数据量分布式处理控制的方法，包括以下步骤：

(1)所述的数据合法性校验模块、数据持久化处理模块和数据分类处理模块对数据进行筛选处理，包括以下步骤：

(1.1)所述的数据合法性校验模块配置数据合法性校验规则，并对数据进行规则验证，具体为：

所述的数据合法性校验模块通过xsd文件配置数据合法性校验规则，所述的数据合法性校验模块将半结构化数据转换为java.io.bytearrayinputstream，数据合法性校验模块并利用javax.xml.validation.schema和javax.xml.validation.schemafactory对数据进行规则验证；

(1.2)所述的数据持久化处理模块将通过数据合法性校验的数据转换成业务对象，具体为：

所述的数据持久化处理模块将通过数据合法性校验的数据利用jaxb工具根据schema生成实体类，并调用messagehandleimpl工具类，将生成实体类转换成持久化的业务对象；

(1.3)所述的数据分类处理模块将所述的业务对象发送至数据关联分析引擎子系统，具体为：

数据分类处理模块将所述的业务对象根据业务对象的类型标志通过http协议发送至数据关联分析引擎子系统；

(1.4)所述的系统创建不同数据格式的接收记录表，并将筛选后的数据备份到数据库中，其中，所述的接收记录表包括数据唯一id和创建时间字段；

(1.5)所述的数据处理异常处理模块判断各模块是否有故障，如果是，则所述的数据处理异常处理模块将故障模块正在处理的数据转化为xml文件并保存，然后定时对数据重发直至数据处理成功；如果不是，则继续步骤(1.1)；

(2)所述的数据业务模型校验模块和数据业务关联模块对筛选后的数据关联分析；

(2.1)所述的数据业务模型校验模块制定业务规则，并将接收到的数据进行相关性的业务模型校验，具体为：

所述的数据业务模型校验模块判断业务模型是否为永久性业务模型，如果是，则所有进入数据关联分析引擎子系统的数据都需要校验，然后继续步骤(2.2)；否则继续步骤(2.2)；

(2.1.1)所述的数据业务模型校验模块对通过业务模型校验的数据进行二次校验，并生成反馈结果；

(2.2)所述的数据业务关联模块将业务对象进行关联，其中：

所述的数据业务关联模块通过接收记录表中的数据唯一id字段将不同的业务对象根据业务关联主键关联；

(3)所述的数据监控运维引擎子系统将筛选结果和分析结果反馈给企业；

(3.1)所述的系统将结果反馈服务分布式部署到不同服务器，并创建数据反馈记录表，其中，所述的数据反馈记录表包括数据唯一id、反馈内容和反馈时间字段；

(3.2)所述的数据反馈监控模块将筛选结果通知企业，并将反馈内容记录到数据反馈记录表中。

在本发明的一个优选实施方式中，所述的方法中还包括日志监控处理操作，具体为：

所述的日志处理模块记录所述的数据筛选处理引擎子系统工作时的系统正常日志，并记录所述的数据处理异常处理模块工作时的系统异常日志。

在实际使用当中，本发明即在处理大量数据时，没有进行数据关联处理，提出了指一种在云计算平台中大数据量分布式处理的系统与方法，即在处理大量数据的同时，还能根据企业的业务需求，对数据进行关联。

云计算平台中大数据量分布式处理的系统和方法，主要包括数据筛选处理引擎子系统、数据关联分析引擎子系统、数据监控运维引擎子系统，如图1所示。

数据筛选处理引擎子系统包括：

数据合法性校验模块，此模块主要对输入的数据进行合法性检查，避免错误非法的数据进入系统，筛选出合法的数据进行下一步处理，减少系统数据的处理量。

数据持久化处理模块，此模块主要存储模型转换为内存中的数据模型，即将收到的数据转换为相关的业务对象。

数据分类处理模块，此模块主要是根据数据生成的业务对象进行分类，将不同的业务对象分别发送到数据关联服务。

数据备份模块，此模块主要是将收到的数据进行备份，以防引擎子系统宕机造成数据丢失。

数据关联分析引擎子系统包括：

数据业务模型校验模块，此模块主要将从数据筛选处理引擎子系统接收的数据根据制定的业务模型进行校验，筛选出符合关联条件的数据。

数据业务关联模块，此模块将通过业务模型校验的数据按照一定的业务相关性进行过滤、去重/变更、生成关联键值、组内关联、组间关联、多方拆分、后续环节触发等一系列处理。

数据监控运维引擎子系统包括：

数据处理异常处理模块，此模块主要将各个引擎子系统无法处理的数据，进行备份，并记录处理异常情况，方便运维人员排查故障原因，并定时重新推送异常数据，以便引擎子系统故障修复后数据重新处理。

日志处理模块，此模块用于监控引擎子系统运行过程的日志信息，方便后期的审查和排错。引擎子系统在运行过程中的各个节点上将会产生日志信息，由日志处理模块将日志信息记录到文件中。

数据反馈监控模块，此模块用于展示关联后的数据，企业能对关联后的业务数据进行实时查询，而且系统会分析关联后的数据根据不同的业务模型，生成相关的预警提醒，方便企业对数据源进行监管。

数据筛选处理引擎子系统流程包括以下步骤：

将所述数据合法性校验模块、数据持久化处理模块、数据分类处理模块、数据备份模块、数据处理异常处理模块、日志处理模块集成至数据筛选处理引擎子系统，并将数据筛选处理引擎子系统分布式部署到各个服务器中，并初始化运行环境；

所述数据合法性校验模块中，配置数据合法性校验规则，通过xsd文件配置校验规则，将半结构化数据转换为java.io.bytearrayinputstream并利用javax.xml.validation.schema和javax.xml.validation.schemafactory进行规则验证；

所述数据持久化处理模块中，将通过数据合法性校验的数据利用jaxb工具根据schema生成实体类，并调用messagehandleimpl工具类，将生成实体类转化为持久化的业务对象；

所述数据分类处理模块中，将持久化后的业务对象，根据业务对象的类型标志通过http协议发送到数据关联分析引擎子系统；

所述数据备份模块中，待上述步骤中所述的数据发送成功后，数据备份模块会将发送成功的数据转化为xml文件，并保存到制定目录下；

所述数据处理异常处理模块中，该模块主要针对上述步骤的处理过程中，可能发生的故障情况进行异常处理。处理机制如下，当数据处理异常处理模块监测到某个模块出现故障后，数据处理异常处理模块会将故障模块正在处理的数据转化为xml文件并保存异常数据存放目录，数据处理异常处理模块会有独立的线程定时去处理异常数据存放目录的xml文件，直到异常数据全部处理完成；

所述日志处理模块中，在上述步骤中，均会产生日志信息，此模块部署嵌套在各个业务系统中，其作用是记录系统正常日志和系统发生异常的日志。记录时需要按照规定的格式，正常日志的详细数据，异常日志需要记录详细的异常对象以及异常发生时的上下文数据

数据关联分析引擎子系统流程包括以下步骤：

将所述数据业务模型校验模块、数据业务关联模块、数据处理异常处理模块、日志处理模块集成至数据关联分析引擎子系统，并将数据关联分析引擎子系统分布式部署到各个服务器中，并初始化运行环境；

所述数据业务模型校验模块，此模块将从数据筛选处理引擎子系统接收到的数据，进行业务模型检验，业务模型分为永久性业务模型和临时性业务模型，永久性业务模型为永久生效的业务模型，一般不可修改，所有进入引擎子系统的数据都需要校验；临时性业务模型为临时生效的业务模型，允许修改且支持热部署；业务模型校验会继续细化业务对象类型，甄别出业务对象的状态，并交给数据业务关联模块进行后续处理；

所述数据业务关联模块，该模块按照一定的业务相关性进行过滤、去重/变更、生成关联键值、组内关联、组间关联、多方拆分、后续环节触发等一系列处理。

为了能够更清楚地理解本发明的技术内容，特举以下实施例详细说明。

请参阅图1至图3所示，该云计算平台中大数据量分布式处理的系统与方法，具体实施方式包含以下步骤：

1、数据筛选处理

本发明首先将接受到的大量异构的数据进行筛选，筛选的过程会分布式并行处理，以此提高数据处理速度，最终符合格式的数据将流转到下一环节中，不符合格式的数据将被剔除。该环节包括数据入库、备份及异常处理操作，具体过程如下：

将数据筛选服务分布式部署到不同服务器中；

制定符合要求的数据格式，对接收到的数据进行校验；

将校验后的数据转换成业务对象，对数据生成的业务对象进行分拣并发送到数据关联服务；

创建不同数据格式的接收记录表，包括：数据唯一id、创建时间等字段，将通过筛选的数据备份到数据库中；

若数据处理异常，系统会将该份数据落地成xml文件，然后定时对数据进行重发，直到数据处理成功；

2、数据的关联分析和监控

本环节将对上一环节的数据进行关联分析，将其中有关系的数据关联起来进行分析，可实时监控分析结果。该环节包括数据关联、分析、备份及异常处理等操作，具体过程如下：

创建数据分析记录表，包括：数据唯一id、分析环节、分析时间、分析结果等字段；

制定业务规则，收到的数据进行业务相关性的校验，并生成相关的反馈结果；

通过不同接受记录表中的唯一id，将不同的业务对象根据业务关联主键关联；

可设置特定的规则，对通过业务逻辑校验的数据再次校验并生成相关的反馈结果；

分析结果可实时反映在前端监控页面上；

3、结果反馈

本环节将前两个环节中的筛选结果及分析结果反馈给企业。该环节包括反馈记录、异常处理等操作，具体过程如下：

将结果反馈服务分布式部署到不同服务器上；

创建数据反馈记录表，包括：数据唯一id、反馈内容、反馈时间等字段；

将筛选结果通知企业，并将反馈内容记录到数据反馈记录表中。

采用了该发明的云计算平台中实现大数据量分布式处理的系统及方法，业务开发人员在实现企业对于大数据量的相关需求时，可用本发明中的方法有效提升数据处理速度，并且可根据企业需求，不仅灵活制定数据的校验规则，同时还能根据业务量随时进行分布式部署，优化数据的处理引擎，提高了系统的实用性。

在此说明书中，本发明已参照其特定的实施例作了描述。但是，很显然仍可以作出各种修改和变换而不背离本发明的精神和范围。因此，说明书和附图应被认为是说明性的而非限制性的。

（编辑：温州站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

云原生 PostgreSQL -	有效的云迁移策略为企
微软智能云Azure在华新	三种在云中利用开源的