检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
编排调度会涉及哪些服务,例如MRS、DWS、CDM等? 本示例涉及DataArts Studio数据集成和数据质量、MRS Hive 了解作业的场景,用于进一步调查平台能力与客户场景匹配度 作业数量规模是多少? 本示例作业数量在20个以内 大致了解作业的规模,通常用算子数来描述,可通过表的数量估计 每日作业调度次数是多少?
审计与日志 云审计服务(Cloud Trace Service,以下简称CTS),是华为云安全解决方案中专业的日志审计服务,提供对各种云资源操作记录的收集、存储和查询功能,可用于支撑安全分析、合规审计、资源跟踪和问题定位等常见应用场景。 CTS可记录的DataArts Studi
jar”时,主类名称不能为空。 Spark程序资源包 是 运行spark作业依赖的jars。可以输入jar包名称,也可以输入对应jar包文件的OBS路径,格式为:obs://桶名/文件夹路径名/包名。在选择资源包之前,您需要先将Jar包及其依赖包上传至OBS桶中,并在“资源管理”页面中新建资源,具体操作请参考新建资源。
对应旧空间的集群。 搬迁依赖于OBS功能,请您提前规划OBS桶和文件夹目录。 DataArts Studio数据搬迁时,依赖各组件的备份或导入导出能力。您可以根据自己的数据需求,自由选择搬迁哪个组件的数据。 管理中心配置数据搬迁 数据集成配置数据搬迁 数据架构配置数据搬迁 数据开发配置数据搬迁
Boolean 是否使用数据库本地API加速。 创建MySQL连接时,使用本地API加速,可以使用MySQL的LOAD DATA功能加快数据导入,提高导入数据到MySQL数据库的性能。 说明: REPLACE 和 IGNORE 修饰符用于处理与现有行具有相同唯一键值(PRIMARY KEY或UNIQUE索引值)的新输入的行。
Rest Client 功能 通过Rest Client节点执行一个华为云内的RESTful请求。 Rest Client算子的具体使用教程,请参见获取Rest Client算子返回值教程。 当由于网络限制,Rest Client某些API无法调通时,可以尝试使用Shell脚本进
多个数据段联合做主键的场景,建议设置所有主键作为分布列。 在没有主键的场景下,如果没有选择分布列,DWS会默认第一列作为分布列,可能会有数据倾斜风险。 因此,在单表或整库导入到DWS/FusionInsight LibrA时,建议您在此处手动选择分布列,如果您没有选择,CDM会自动选择一个分布列。关于分布列的更多信息,请参见数据仓库服务。
导出”,然后在弹出框中选中“表”并单击“确定”,可以将整个模型导出。参考同样的方法导出模型“sdi”。导出后的模型,可以作为备份,今后可用于模型导入。 图32 导出模型 发布表模型。 发布2中通过逆向数据库导入SDI模型的原始表,发布后,就可以通过DataArts Studio对原始表进行管理和监控。 返回关系建模页
自动创建该表。如果“表名”参数配置的表已存在,则不创建,数据写入到已存在的表中。 不自动创表 导入前清空数据 选择目的端表中数据的处理方式: 是:任务启动前会清除目标表中数据。 否:导入前不清空目标表中的数据,如果选“否”且表中有数据,则数据会追加到已有的表中。 否 全量模式写Hoodie
变量)。 是 使用Agent Agent功能待下线,无需配置。 - local_infile字符集 MySQL通过local_infile导入数据时,可配置编码格式。 utf8 驱动版本 CDM连接关系数据库前,需要先上传所需关系数据库的JDK8版本.jar格式驱动。MySQL的
资产识别与管理 云资源的标识与管理可通过标签实现。 使用场景 通常您的业务系统可能使用了华为云的多种云服务,您可以为这些云服务下不同的资源实例分别设置标签(对于DataArts Studio而言,标签作用于其实例上),各服务产生的计费详单中都会体现这些资源实例和实例上设置的标签。
变量是指不同的空间下取值不同,需要重新配置值,比如“工作空间名称”变量,这个值在不同的空间下配置不一样,导出导入后需要重新进行配置。 常量是指在不同的空间下都是一样的,导入的时候,不需要重新配置值。 图1 环境变量 具体应用如下: 在环境变量中已新增一个变量,“参数名”为sdqw,“参数值”为wqewqewqe。
Studio实例控制台 前提条件 请参见购买DataArts Studio实例,确认已购买DataArts Studio实例。 操作步骤 登录华为云控制台,在左上角的服务列表中选择“数据治理中心DataArts Studio”,进入DataArts Studio实例控制台。 如果当前区域下有多个DataArts
历史数据到源数据表,使用数据集成将历史数据从OBS导入到SDI贴源层的原始数据表。 历史数据清洗,使用数据开发的MRS Hive SQL脚本将源数据表清洗之后导入DWI层的标准出行数据表。 将基础数据插入维度表中。 将DWI层的标准出行数据导入DWR层的事实表中。 数据汇总,通过Hive
DWS连接联通性测试约束如下: 联通性测试时,系统会使用当前用户账号访问数据源,以确保正常访问。但由于DWS数据源不支持以华为账号直接访问,如果登录账号为华为账号,联通性测试会失败。因此,在DWS联通性测试前,需要先完成用户同步,再将当前登录账号切换为IAM子用户账号,且至少具有DWS
选择“Flink自定义作业”。 jar包资源 是 用户自定义的程序包。在选择程序包之前,您需要将对应的jar包上传至OBS桶中,并在“资源管理”页面中新建资源,具体操作请参考新建资源。 入口类 是 指定加载的Jar包类名,如KafkaMessageStreaming。 默认:根据Jar包文件的Manifest文件指定。
获取Rest Client节点返回值教程 Rest Client节点可以执行华为云内的RESTful请求。 本教程主要介绍如何获取Rest Client的返回值,包含以下两个使用场景举例。 通过“响应消息体解析为传递参数定义”获取返回值 通过EL表达式获取返回值 通过“响应消息体解析为传递参数定义”获取返回值
安全管理员,数据安全审计员和数据安全运营人员)对数据安全和数据治理的诉求。 图1 DataArts Studio数据安全框架 资源主体:即华为云数据湖中的库表字段及计算引擎队列资源。库表字段支持大数据MRS Hive/Spark,云数据仓库DWS,数据湖探索DLI等数据湖,计算引擎队列包含大数据MRS
获取Rest Client节点返回值教程 Rest Client节点可以执行华为云内的RESTful请求。 本教程主要介绍如何获取Rest Client的返回值,包含以下两个使用场景举例。 通过“响应消息体解析为传递参数定义”获取返回值 通过EL表达式获取返回值 通过“响应消息体解析为传递参数定义”获取返回值
图5 编辑CDM作业 在源端作业配置的高级属性里面,通过配置where子句获取迁移所需的数据,作业运行时,将从源端获取到的迁移数据复制导出并导入目的端。 图6 配置where子句 where子句配置如下: dt > '${maxtime}' 父主题: 使用教程