正在生成
详细信息:
检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
的读取权限。 cdm 密码 用户名密码。 - 使用本地API 可选参数,选择是否使用数据库本地API加速。 创建MySQL连接时,CDM会自动尝试启用MySQL数据库的local_infile系统变量,开启MySQL的LOAD DATA功能加快数据导入,提高导入数据到MySQL数
通过KMS加解密数据源认证信息,选择KMS中的任一默认密钥或自定义密钥即可。 说明: 第一次通过DataArts Studio或KPS使用KMS加密时,会自动生成默认密钥dlf/default或kps/default。关于默认密钥的更多信息,请参见什么是默认密钥。 数据源认证及其他功能配置 用户名
触发运行一次对账作业为例的配置。 单击“提交”,对账作业创建完成。 查看对账作业。 单击对应的对账作业操作列中的运行链接,运行对账作业后,自动跳转到运维管理页面。 单击结果&日志查看运行结果和运行日志,等待作业运行结束后,如下图所示。 结果分析 至此,完成了通过DataArts
文件格式为二进制格式时显示该参数。 将二进制文件先写入到临时文件。临时文件以".tmp"作为后缀。 否 换行符 文件格式为CSV格式时显示该参数。 文件中的换行符,默认自动识别"\n"、"\r"或"\r\n"。手动配置特殊字符,如空格回车需使用URL编码后的值。或通过编辑作业json方式配置,无需URL编码。
使用该字符串进行CSV消息的行分割,默认为换行符:\n。 Kafka源端属性配置:支持设置Kafka的配置项,需要增加 properties. 前缀,作业将自动移除前缀并传入底层Kafka客户端,例如:properties.connections.max.idle.ms=600000。 添加数据源。
文件过滤器:配置为“*${dateformat(yyyyMMdd,-1,DAY)}*”(这是CDM支持的日期宏变量格式,详见时间宏变量使用解析)。 图1 文件过滤 配置作业定时自动执行,“重复周期”为1天。 这样每天就可以把昨天生成的文件都导入到目的端目录,实现增量同步。 文件增量迁移场景下,“路径过滤器”的使用方法
文件过滤器:配置为“*${dateformat(yyyyMMdd,-1,DAY)}*”(这是CDM支持的日期宏变量格式,详见时间宏变量使用解析)。 图1 文件过滤 配置作业定时自动执行,“重复周期”为1天。 这样每天就可以把昨天生成的文件都导入到目的端目录,实现增量同步。 文件增量迁移场景下,“路径过滤器”的使用方法
同步的数据更新,但不支持随之删除。如需删除需要在数据目录中定位到资产后手动删除。 技术资产中的库表列等信息来自于元数据采集任务,是否更新和自动删除取决于元数据采集任务的参数配置,详情请参见配置元数据采集任务。 技术资产中的数据血缘关系更新依赖于作业调度,数据血缘关系是基于最新的作
ts Studio数据集成将数据迁移上云时,不支持自动创建目标表的功能,因此,您需要在目的端(MRS服务)先建好表。 在使用DataArts Studio进行数据集成时,关系型数据库之间的迁移和关系型数据库到Hive的迁移支持自动创建目标表。这种情况下可以不提前在目的端数据库中预先创建目标表。
业调度任务(批处理作业)。 如果该作业在基线任务链路上,暂停调度/停止调度时,系统会自动给出基线关联的弹窗提示。 如果该作业在基线任务链路上或者被其他作业依赖, 暂停调度/停止调度时,系统会自动给出弹窗提示。 图3 启动作业 批作业监控:补数据 补数据是指作业执行一个调度任务,在
ECS),如果使用两套集群,DataArts Studio通过管理中心的创建数据连接区分开发环境和生产环境的数据湖服务,在开发和生产流程中自动切换对应的数据湖。因此您需要准备两套数据湖服务,且两套数据湖服务的版本、规格、组件、区域、VPC、子网以及相关配置等信息,均应保持一致。创
基础配置 表2 基础配置 参数名称 说明 *表名 码表名称。 只允许除\、<、>、%、"、'、;及换行符以外的字符。 *编码 码表的英文名称。支持自动生成码表,也可选择自定义手动输入。只能包含英文字母、数字和下划线,且以英文字母开头。 描述 描述信息。支持的长度为0~600个字符。 在“
py的传入参数路径,可以把需要统计的单词写到里面; obs://obs-tongji/python/out为输出参数文件夹的路径,并且会在OBS桶中自动创建该目录(如已存在out目录,会报错)。 单击“测试运行”,执行该脚本作业。 待测试完成,执行“提交”。 在“作业监控”界面,查看作业执行结果。
选择明文水印标识的字体大小。 *数据选择 非结构化数据仅支持docx、pptx、xlsx和pdf格式文件。 单击“注入水印”,完成文件水印注入,浏览器自动下载注入后的文件。 单击“重置”可重置配置参数至默认状态。 水印提取 当前仅支持对已通过水印注入注入暗水印的结构化数据文件(csv、xml和json)进行水印提取。
完成表的新建后,您可以在表中为字段关联质量规则,完成关联后,当表发布成功后,就会在DataArts Studio数据质量中自动创建质量作业,如果当前表已经发布,则系统会自动更新质量作业。有关关联质量规则的更多信息,请参见关联质量规则。 单击“下一步”,进入“关系”标签页,本示例不涉及。
ult/table_20180815/”。这个目录必须带有表名(例如这里的表名是table_20180815),如果该目录不存在,CDM会自动创建该目录。 文件格式:同源端相同,选择“二进制格式”。 其它可选参数保持默认即可。 单击“下一步”进行任务配置,其中抽取并发数默认为3,
自定义作业/脚本:从基线任务添加需要审批的作业。 选择“审批作业”页签,单击“添加”,进入“请选择要审批的作业”界面,选择需要审批的作业。 添加作业时会自动添加其关联的脚本。当选中目录时,仅将当前目录下的作业添加到需要审批的作业中。若在该目录下新创建作业,则需要再次添加。单击“确定”。 作业添加后,可以删除,支持批量删除。
对业务指标和数据指标进行监控。您可从完整性、有效性、及时性、一致性、准确性、唯一性六个维度进行单列、跨列、跨行和跨表的分析。支持数据的标准化,能够根据数据标准自动生成标准化的质量规则。支持周期性的监控。 业务指标监控 监控业务指标 数据质量监控 查看质量作业 步骤8:数据资产查看 在DataArts
提交脚本或者作业。 对于历史版本中直接在数据开发组件创建的数据连接,暂不支持进行资源权限管理。 对于已有的空间资源权限策略,当已删除对应资源后,策略不会随之自动删除。 新建空间资源权限策略 在DataArts Studio控制台首页,选择对应工作空间的“数据安全”模块,进入数据安全页面。 单击左侧
情况。 不支持变更自动同步。即数据架构处的主题或主题层级变更并发布后,需要手动再次单击才能同步到主题目录。 特殊的,数据架构处的主题或主题层级删除后,手动同步后目录不会删除,仅去除主题目录属性,作为普通目录进行展示。 完成同步后,若有同步失败的主题,系统会自动弹出同步结果明细,可查看同步失败的主题名称。