加入收藏 | 设为首页 | 会员中心 | 我要投稿 温州站长网 (https://www.0577zz.com/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 大数据 > 正文

数据开发概述

发布时间:2022-11-01 13:30:51 所属栏目:大数据 来源:网络
导读: 数据开发概述
DataWorks的DataStudio(数据开发)模块为您提供了界面化、智能高效的大数据数据开发与测试体验,本文将基于开发组件(节点)、支持开发的任务类型、开发过程中的资源管控与使

数据开发概述

DataWorks的DataStudio(数据开发)模块为您提供了界面化、智能高效的大数据数据开发与测试体验,本文将基于开发组件(节点)、支持开发的任务类型、开发过程中的资源管控与使用说明、开发过程中的成员权限控制(资源与功能)来说明数据开发的功能使用。

说明

开发组织结构

您可以基于包括工作空间 > 解决方案 > 业务流程三级结构,对业务进行划分,您可以基于公司部门、公司业务或数仓层次进行规划分组。结构层级特征定位

工作空间

不同的工作空间可以有不同的管理员、不同的内部成员,各工作空间拥有完全独立的成员角色设定以及引擎实例的各项参数开关。关于工作空间的规划请参见。

DataWorks支持的最大业务划分粒度,权限组织的基本单位,用来控制您的开发、运维等权限。工作空间内成员的所有代码均可以协同开发管理。

解决方案

您可以将一类业务流程划分为一个解决方案进行统筹管理,同时一个业务流程也可以被多个解决方案复用,您只需要开发自己的解决方案。其他人可以在其它解决方案或业务流程中,直接编辑您引用的业务流程,构成协同开发。

业务整合。

业务流程

业务的抽象实体,让您能够以业务的视角来组织数据代码开发。工作空间之间的业务流程、任务节点独立开发,互不影响。

业务流程两种形态,目录树与面板,让您从业务视角组织代码,资源类别更明确,业务逻辑更清晰。

具体的代码开发、资源组织单位。

数据开发基于业务流程下对应的节点进行开发操作,您可以在业务流程面板下新建一个或多个业务流程,每个业务流程按照引擎类型进行分组,每个引擎分组下再对数据开发类型节点、表、资源、函数进行一步分组,即一类业务使用的组件(节点、表、资源、函数)统筹在一个业务流程中,业务流程下仅展示当前业务流程中使用的组件。

简单逻辑说明

DataWorks的数据开发基于业务流程进行数据开发,支持手动触发任务与调度任务进行开发,您可以选择引擎节点、控制类节点、自定义节点进行数据清洗操作。调度任务需要配置调度相关参数,并提交节点进入待发布界面,在任务发布界面进行发布操作。节点发布完成后,任务将进入生产环境,之后将根据您的调度配置周期性调度。

DataStudio主要功能开发节点类型的选择请参见下文的章节。

任务开发

支持调度任务(周期任务)开发与手动触发式任务开发,且开发过程中通过界面化、智能化提高开发效率:新建周期任务、新建手动任务的介绍详情请参见。

表、资源、函数的可视化管理与使用

表、资源、函数的管理与使用的介绍请参见下文的。

成员权限管控与开发行为管控

DataWorks数据开发的权限管控主要包括:详细介绍请参见下文的。

代码版本管理与操作审计

操作审计主要包括:详细介绍请参见下文的。

选择数据开发节点

DataWorks将引擎能力进行封装,您可以基于引擎节点进行数据开发,无需接触复杂的引擎命令行,同时您也可以结合平台提供的通用类型节点进行复杂逻辑处理,此外,DataWorks也为您提供自定义节点插件化机制,支持您扩展计算任务类型,自主接入自定义计算服务,通过自定义节点开发,来实现自定义处理代码逻辑。

说明 产品能力在仍在不断丰富中。

离线同步支持的数据源详情请参见。

用于实时同步同步场景。

实时同步包括实时读取、转换和写入三种基础插件,各插件之间通过内部定义的中间数据格式进行交互。

实时同步支持的数据源详情请参见。

DataWorks为您提供多种数据源之间进行不同数据同步场景的同步解决方案,包括实时数据同步、离线全量同步、离线增量同步等同步场景,助力企业数据更高效、更便捷的一键上云。

同步任务配置化方案具有如下优势:同步解决方案详情可参考文档。

引擎节点:您可基于引擎节点进行数据开发

在具体业务流程下,您可以选择在某一引擎下的数据开发分组下新建对应引擎类型节点,来将相应的引擎代码下发到对应的数据清洗引擎上执行。DataWorks集成的引擎DataWorks对引擎能力的封装

MaxCompute

E-MapReduce

AnalyticDB For PostgreSQL

AnalyticDB For MySQL

Hologres

数据库

ClickHouse

算法

通用节点:引擎节点可结合通用节点进行复杂逻辑处理

在具体业务流程下,您可以在通用节点分组下新建对应的节点,结合引擎节点实现复杂逻辑处理。业务场景节点类型使用说明

业务管理

虚拟节点属于控制类型节点,它是不产生任何数据的空跑节点,通常作为业务流程统筹节点的根节点,方便您管理节点及业务流程。

事件触发

如果您希望其他调度系统的任务完成后触发DataWorks上的任务运行,您可以使用此功能。

通过监控OSS对象产生来触发下游节点执行。

通过监控FTP文件产生来触发下游节点执行。

参数赋值

用于参数传递,通过自带的output输出将赋值节点最后一条查询或输出结果通过节点上下文功能传递到下游,实现参数跨节点传递。

大数据培训大数据培训_大数据概述_大数据与大数据资产

控制类

用于遍历赋值节点传递的结果集。

用于循环执行部分节点逻辑,同时您也可以结合赋值节点来循环输出赋值节点传递的结果。

用于对上游结果进行判断决定不同结果走不同的分支逻辑,您可以结合赋值节点一块使用。

用于对上游节点的运行状态进行归并,用于解决分支节点下游节点的依赖挂载和运行触发问题。

参数传递

用于上游节点间参数汇总与分发向下传递。

Shell节点支持标准Shell语法,但不支持交互性语法。

代码复用

SQL组件是一种带有多个输入参数和输出参数的SQL代码模板。使用SQL代码处理数据表时,通过过滤、连接和聚合源数据表,获取结果表。

说明 目前仅支持MaxCompute语法。

自定义节点:通过节点配置自定义节点进行数据开发

DataWorks提供自定义节点插件化机制,支持您扩展计算任务类型,自主接入自定义计算服务。您可以本地开发好插件代码,通过节点配置界面将该插件添加至DataWorks环境内,添加完成后,当前在数据开发时,可以在具体业务流程的自定义分组中选择该自定义节点进行数据开发。

自定义节点的使用流程如下。操作流程步骤描述

step1:

DataWorks自定义节点中运行任务时,需要调用自定义插件,因此在使用自定义节点前您需要创建好自定义插件包,并上传发布至DataWorks,便于使用自定义节点运行任务时使用。

step2:

在DataWorks环境中部署该插件。

step3:

新增自定义节点,配置自定义节点与自定义插件关系,编辑自定义节点在DataWorks界面的交互方式,基本信息、编辑器。

选择开发任务类型

DataWorks上支持周期调度任务的开发,同时也支持手动触发式任务的开发。您可以在左侧的目录树上右键来新建任务,也可以在双击业务流程后通过鼠标拖拽来新建任务。

调度类型

设置调度场景下节点是否真实执行,及非真实执行场景下对下游节点的影响控制。暂停调度空跑调度

重跑属性

从数据幂等性考虑任务是否可以进行重跑。

出错自动重跑

设置调度场景下节点的出错重跑次数与重跑间隔。

生效日期

当前节点在指定时间段内自动重跑,指定时间段外不自动调度(不生成周期实例)。

调度周期与定时时间

支持分钟、小时、日、周、月和年调度。

说明 非调度时间内实例空跑。

超时时间

任务运行时长超过指定时间,任务将自动终止运行,失败退出。

:用于指定任务调度时使用的调度资源组。核心配置参数配置要点

依赖同周期

当前节点运行需要由哪些节点触发,此处依赖的是指定节点同一周期的依赖,即依赖某些节点今天的自动调度实例,从业务维度说便是当前节点依赖上游节点今天产出的表数据。

依赖跨周期

当前节点运行需要由哪些节点触发,此处依赖的是指定节点上一周期实例依赖。(即依赖某些节点昨天的自动调度实例,从业务维度说便是当前节点依赖上游节点昨天产出的表数据。

:与赋值节点同步使用,通过节点上下文可将赋值节点输出的结果集传递到下游节点,实现参数传递。

节点代码查看与版本管理功能功能描述示意图

代码编辑

AI加持的SQL编辑器,提供智能语法提示。

血缘关系

支持查看节点依赖关系图与节点内部代码的血缘关系图。

节点每次提交都将生成新的版本,您可以基于版本进行版本代码对比与版本回退操作。

结构

代码结构通过SQL算子可视化展示.

新建手动任务

在手动业务流程模块具体的手动业务流程,数据开发分组下新建节点,您可以通过业务流程DAG图通过可视化拖拽组件的方式编排业务流程并拉线设置节点依赖关系。

提交节点

节点点击提交后,该条节点的操作记录将进入到任务发布界面,您可以在任务发布界面管控是否发布该条记录,只有将操作发布后,生产调度才会生效。

大数据概述_大数据与大数据资产_大数据培训大数据培训

发布节点

创建发布包界面展示工作空间下所有待发布的操作记录大数据概述,包括新增、更新、下线记录,将对应操作发布生产,生产环境调度任务才会生效。

说明 简单模式工作空间可以通过跨项目克隆将工作空间下的代码发布至另一个工作空间。

表、资源、函数的管理与使用

DataWorks将引擎下的表、资源、函数进行封装,您可以通过可视化方式创建表、资源,及注册函数等操作。

说明 您可以通过数据地图模块查看表的基本元数据信息、血缘信息和影响等,详情可参考数据地图文档:。

不同表操作在不同入口的操作注意事项如下。操作分类细分操作主要操作入口1:数据开发页面主要入口2:表管理页面

表管理

基本表操作:

表操作行为基本与引擎行为一致。

表操作行为基本与引擎行为一致。

生产表不支持在数据开发、表管理页面中直接操作,需要在数据地图中操作,详情请参见。

表数据导入

上传本地数据至表中

其他数据库数据同步至表中

通过离线同步节点、实时同步节点将其他数据库数据同步至表中。

不支持

表数据导出

数据导出至本地

说明 管理员权限可控制此开关。

数据导出至其他数据库

通过离线同步节点、实时同步节点将数据同步至其他数据库。

不支持

资源的管理与使用

成员权限管控与开发行为管控

以下将DataWorks数据开发的权限分为两部分:引擎操作权限、DataWorks功能权限。

DataWorks界面权限管控:

指非引擎操作的其他DataWorks数据开发时,对DataWorks的界面功能的权限控制。

开发行为管控:指DataWorks提供的操作权限控制能力,您可以在敏感行为发生时做到第一时间阻断,支持人工干预或自定义事件检查逻辑,流程管控可分为阻断操作流程和不阻断操作流程仅通知。

综上,DataWorks的RAM用户被添加为管理员角色或开发角色的成员后,会拥有开发环境(MaxCompute引擎开发项目)所有权限,但默认没有生产环境(MaxCompute生产项目)的操作权限,如果需要在生产环境访问生产表,需要在中单独申请生产环境表权限。

在开发代码编译调测时,您主要在数据开发页面进行操作,在任务代码编译调测完成后,可发布至生产环境,后续在运维中心页面执行生产环境的任务。操作页面访问开发环境表访问生产环境表

数据开发页面

运维中心页面

不支持

引擎权限管控:E-MapReduce

当前工作空间使用的是E-MapReduce引擎时,DataWorks预设角色与引擎无直接权限映射关系,绑定EMR引擎时,您可以选择快捷模式或安全模式,两种模式下的绑定配置和配置过程中的权限操作不一致,详情请参见。

引擎权限管控:其他引擎

当前工作空间使用的其他引擎时,预设角色与引擎无直接关系。您在数据开发界面执行任务是否有权限与您在引擎配置中的配置账号有关。

DataWorks界面权限管控操作审计节点版本对比与回滚

您可以在数据开发界面找到该节点,在节点配置右侧版本处进行版本对比回滚操作,详情请参见。

获取界面操作审计日志,如界面下载数据的操作

DataWorks已对接操作审计(ActionTrail)中,您可以在ActionTrail中查看及检索阿里云账号最近90天的DataWorks行为事件日志。后续可以通过ActionTrail将事件日志投递至日志服务LogStore或指定的OSSBucket中,实现对事件的监控和告警,满足及时审计、问题回溯分析等需求。详情请参考。

数据脱敏与泄露数据溯源

如果您文件比较重要,为防止文件泄露,您可以通过数据保护伞功能的脱敏配置,对重要数据进行脱敏规则设置,并可依据数据水印功能对泄露的数据进行溯源。详情请参考文档。

MaxCompute表权限的权限审计

您可以进入安全中心,在数据访问控制的权限审计处,查看拥有表权限的人员列表、权限详情以及权限有效期,并支持回收表权限。

(编辑:温州站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!