检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
数据源安全组放通哪些端口可满足Migration访问? 如何配置Hudi Compaction的Spark周期任务? MySQL到DWS实时同步中,同步新增列的DDL时报错怎么办? MySQL到DWS实时同步中,DWS为什么需要对主键null值进行过滤? Kafka到DLI实时同步中,作业运行失败,报“Array
数据源安全组放通哪些端口可满足Migration访问? Hudi 如何配置Hudi Compaction的Spark周期任务? DWS MySQL到DWS实时同步中,同步新增列的DDL时报错怎么办? MySQL到DWS实时同步中,DWS为什么需要对主键null值进行过滤? Kafka Kafka到DLI实时同步中,作业运行失败,报“Array
资源管理列表中,具体操作请参考新建资源。 Flink作业执行参数 否 Flink作业执行的程序关键参数,该参数由用户程序内的函数指定。多个参数间使用空格隔开。 MRS资源队列 否 选择已创建好的MRS资源队列。 说明: 需要先在数据安全服务队列权限功能中,配置对应的队列后,才能在
如果是导入到数据仓库服务(DWS),则还需在目的字段中选择分布列,建议按如下顺序选取分布列: 有主键可以使用主键作为分布列。 多个数据段联合做主键的场景,建议设置所有主键作为分布列。 在没有主键的场景下,如果没有选择分布列,DWS会默认第一列作为分布列,可能会有数据倾斜风险。 脱敏 隐藏字符串中的
值或第二个值等,详见Loop内嵌对象;循环执行的子作业的作业参数名配置后,参数值无需配置可置为空。 当循环执行的子作业需要使用自身参数变量运行时,则本参数可置为空;循环执行的子作业的作业参数需配置参数值。 数据集 是 For循环算子需要定义一个数据集,这个数据集用来循环替换子作业
单击物理模型进入。 在物理表的列表上方,单击“逆向数据库”。 在“逆向数据库”对话框中,配置如下参数,然后单击“确定”。 表6 逆向数据库配置 参数名称 说明 *所属主题 在下拉列表中选择所属主题。 *数据连接类型 在下拉列表中将显示逆向数据库支持的数据连接类型,请选择所需要的数据连接类型。
序内的函数指定。多个参数间使用空格隔开。 MRS资源队列 否 选择已创建好的MRS资源队列。 需要先在数据安全服务队列权限功能中,配置对应的队列后,才能在此处选择到已配置的队列。当有多处同时配置了资源队列时,此处配置的资源队列为最高优先级。 Flink作业资源包 是 选择Jar包
Studio数据连接新建连接。 *数据库 选择待嵌入水印的数据库和数据表。 单击数据库后的“设置”,设置待嵌入水印的数据库和数据表。 单击“清除”,可对已选择的数据库和数据表进行修改。 *源表名 *水印嵌入列 下拉选择常见的字段类型作为嵌入列。如数值型、字符型。 注意:当选择水印版
支持脚本参数功能,使用方法如下: 在Python语句中直接写入脚本参数名称和参数值。当Python脚本被作业引用时,如果作业配置的参数名称与Python脚本的参数名称相同,Python脚本的参数值将被作业的参数值替换。 在脚本内部进行传参,脚本示例如下: a=1 print (a) 或者
经过数据调研和需求分析之后,您需要根据需求落地指标。指标是衡量目标总体特征的统计数值,是能表征企业某一业务活动中业务状况的数值指示器。指标一般由指标名称和指标数值两部分组成,指标名称及其涵义体现了指标质的规定性和量的规定性两个方面的特点,指标数值反映了指标在具体时间、地点、条件下的数量表现。业务指标用于
导出全部标签:单击标签列表上方的“导出全部标签”,可将所有标签导出。 导出选中标签:勾选本页需要导出的标签,单击标签列表上方的“导出选中标签”,可将本页选中的标签导出。 导出的作业标签如下图所示: 图1 导出作业标签 导出的作业标签表格中,第一行为标签名称,第一列为作业名称。某作业具有某一标签,记录为1,否则记录为0。
load 端口。 数据库名称 是 配置需要连接的数据库。 当“适用组件”勾选“数据集成”时,参数“数据库名称”到“引用符号”才需要配置,其中数据库名称为必填项。 使用本地API 否 开关开启时,使用本地API加速。 开关关闭时,不使用本地API加速。 使用数据库本地API加速。(
指标设计:新建业务指标和技术指标,技术指标又分为原子指标、衍生指标和复合指标。 业务指标:指标一般由指标名称和指标数值两部分组成,指标名称及其涵义体现了指标质的规定性和量的规定性两个方面的特点,指标数值反映了指标在具体时间、地点、条件下的数量表现。 业务指标用于指导技术指标,而技术指标是对业务指标的具体实现。
单击“新增”,在文本框中填写作业参数的名称和参数值。 参数名称 名称只能包含字符:英文字母、数字、中划线和下划线。 参数值 字符串类的参数直接填写字符串,例如:str1。 数值类的参数直接填写数值或运算表达式。 参数配置完成后,在作业中的引用格式为${参数名称}。 编辑参数表达式 在参数值文本框后方,单击,
调度方式分为“单次调度”和“周期调度”。单次统计选择“单次调度”即可。 单击“提交”,进入质量作业列表页面。 图5 质量作业列表 在CountingRows作业操作列,单击“运行”,生成作业对应的实例。 单击“运维管理”,进入作业实例列表界面,找到对应的作业实例。待实例运行完成后,单击“结果&日志”,在“运
否 Integer 分页列表的页数,默认值为0。取值范围大于等于0。 limit 否 Integer 分页返回结果,指定每页最大记录数。范围[1,1000] 默认值:10 jobName 否 String 作业名称 tags 否 String 作业标签列表,如果有多个标签,以英文逗号分隔。例如:tag1
支持脚本参数功能,使用方法如下: 在Shell语句中直接写入脚本参数名称和参数值。当Shell脚本被作业引用时,如果作业配置的参数名称与Shell脚本的参数名称相同,Shell脚本的参数值将被作业的参数值替换。 脚本示例如下: a=1 echo ${a} 其中,a是参数名称,只支
into/overwrite等DML操作产生的MRS表之间的血缘。 CDM Job 支持MRS Hive、DLI、DWS、RDS、OBS以及CSS之间表文件迁移所产生的血缘。 ETL Job 支持DLI、OBS、MySQL以及DWS之间的ETL任务产生的血缘。 手动配置血缘 在DataArts Studio数据
当前数据连接数据库记录数。 dw_id String 数据连接id。 databases Array of DatabasesList objects 数据库列表。 表5 DatabasesList 参数 参数类型 描述 database_name String 数据库名称。 description
Studio章节完成注册华为账号、购买DataArts Studio实例(DataArts Studio企业版)、创建工作空间等一系列操作后,可以根据自身的业务需求使用DataArts Studio提供的一系列常用实践。 表1 常用最佳实践 实践 描述 数据迁移 数据迁移进阶实践 本最佳实践提供了数据集成CDM