检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
通过数据质量对比数据迁移前后结果 数据对账对数据迁移流程中的数据一致性至关重要,数据对账的能力是检验数据迁移或数据加工前后是否一致的关键指标。 本章以DWS数据迁移到MRS Hive分区表为例,介绍如何通过DataArts Studio中的数据质量模块实现数据迁移前后的一致性校验。
SFTP/FTP数据连接参数说明 表1 SFTP/FTP数据连接 参数 是否必选 说明 数据连接类型 是 SFTP/FTP连接固定选择为SFTP/FTP。 数据连接名称 是 数据连接的名称,只能包含字母、数字、下划线和中划线,且长度不超过100个字符。 标签 否 标识数据连接的属性。设置标签后,便于统一管理。
CDM支持的监控指标 功能说明 云监控服务(Cloud Eye)可以监控和查看云服务的运行状态、各个指标的使用情况,并对监控项创建告警规则。 当您创建了CDM集群后,云监控服务会自动关联CDM的监控指标,帮助您实时掌握CDM集群的各项性能指标,精确掌握CDM集群的运行情况。 本章
配置离线处理集成作业 数据集成支持创建离线作业,通过在界面勾选源端数据和目的端数据,并结合为其配置的参数,实现将源端单表、分库分表、整库的全量或增量数据周期性同步至目标数据表。 本文为您介绍离线同步任务的常规配置,各数据源配置存在一定差异,请以配置作业源端参数及配置作业目的端参数为准。
查看并修改CDM集群配置 操作场景 CDM集群已经创建成功后,您可以查看集群基本信息,并修改集群的配置。 查看集群基本信息: 集群信息:集群版本、创建时间、项目ID、实例ID和集群ID等。 节点配置:集群规格、CPU和内存配置等信息。 网络信息:网络配置。 支持修改集群的以下配置:
SDK”或“专享版 > SDK”。 单击SDK使用引导区域里对应语言的SDK,下载SDK包到本地。 进行SDK包完整性校验。Windows操作系统下,打开本地命令提示符框,输入如下命令,在本地生成已下载SDK包的SHA256值,其中,“D:\java-sdk.zip”为SDK包的本地存放路径和SDK包名,请根据实际情况修改。
SDK”或“专享版 > SDK”。 单击SDK使用引导区域里对应语言的SDK,下载SDK包到本地。 进行SDK包完整性校验。Windows操作系统下,打开本地命令提示符框,输入如下命令,在本地生成已下载SDK包的SHA256值,其中,“D:\java-sdk.zip”为SDK包的本地存放路径和SDK包名,请根据实际情况修改。
业务ID参数包括作业ID和作业生成的实例ID两种,通过$job_id和$instance_id获取。 使用简易变量集时,需要打开简易变量集的开关,功能才能生效。开关打开的方法请参见配置默认项 > 是否使用简易变量集。 业务日期参数 业务日期是指在调度时间内,任务预期调度运行时间的前一天
DMS Kafka数据连接参数说明 表1 DMS Kafka数据连接 参数 是否必选 说明 数据连接类型 是 DMS Kafka连接固定选择为DMS Kafka。 数据连接名称 是 数据连接的名称,只能包含字母、数字、下划线和中划线,且长度不超过100个字符。 标签 否 标识数据连接的属性。设置标签后,便于统一管理。
Elasticsearch数据连接参数说明 表1 Elasticsearch连接 参数 是否必选 说明 数据连接类型 是 Elasticsearch连接固定选择为Elasticsearch。 数据连接名称 是 数据连接的名称,只能包含字母、数字、下划线和中划线,且长度不超过100个字符。
步骤2:数据准备 使用DataArts Studio前的准备 如果您是第一次使用DataArts Studio,请参考购买并配置DataArts Studio章节完成注册华为账号、购买DataArts Studio实例(DataArts Studio企业版)、创建工作空间等一系列
不是“CDM作业实际启动时间-偏移量”。 FROM/example.csv 列表文件 当“文件格式”选择为“二进制格式”时,才有该参数。 打开列表文件功能时,支持读取OBS桶中文件(如txt文件)的内容作为待迁移文件的列表。该文件中的内容应为待迁移文件的绝对路径(不支持目录),例如直接写为如下内容:
主机连接参数说明 表1 主机连接 参数 是否必选 说明 数据连接类型 是 主机连接固定选择为主机连接。 数据连接名称 是 数据连接的名称,只能包含字母、数字、下划线和中划线,且长度不超过100个字符。 标签 否 标识数据连接的属性。设置标签后,便于统一管理。 说明: 标签的名称,
钮形式列出。 图7 规则设置界面 (可选)如需要将质量作业中不符合设定规则的异常数据存储在异常表中,可以打开“异常数据输出配置”开关。 图8 异常数据输出开关 单击开关,并打开“生成异常数据”按钮,表示异常数据将按照配置的参数存储到规定的库中。 图9 异常数据输出配置 各参数具体含义如下:
SDK”或“专享版 > SDK”。 单击SDK使用引导区域里对应语言的SDK,下载SDK包到本地。 进行SDK包完整性校验。Windows操作系统下,打开本地命令提示符框,输入如下命令,在本地生成已下载SDK包的SHA256值,其中,“D:\java-sdk.zip”为SDK包的本地存放路径和SDK包名,请根据实际情况修改。
开发一个Hive SQL作业 本章节介绍如何在数据开发模块上进行Hive SQL开发。 场景说明 数据开发模块作为一站式大数据开发平台,支持多种大数据工具的开发。Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的SQL查询功能;可
CDM迁移近一个月的数据 备HBase集群中约10TB数据,最近一个月新增的数据量约60TB,总共约70TB。H公司安装的云专线为20GE端口,支持CDM超大规格的集群(cdm.xlarge),综合考虑迁移时间、成本、性能等,这里使用2个CDM超大规格集群并行迁移。CDM集群规格如表1所示。
SDK”或“专享版 > SDK”。 单击SDK使用引导区域里对应语言的SDK,下载SDK包到本地。 进行SDK包完整性校验。Windows操作系统下,打开本地命令提示符框,输入如下命令,在本地生成已下载SDK包的SHA256值,其中,“D:\java-sdk.zip”为SDK包的本地存放路径和SDK包名,请根据实际情况修改。
对结构化数据文件(csv、xml和json)注入暗水印,水印内容不可见,需要进行水印提取。 对非结构化数据文件(docx、pptx、xlsx和pdf)注入明水印,可在本地打开文件,查看水印内容。 动态水印 在数据安全组件开启数据开发动态水印功能并创建动态水印策略后,当策略中指定的用户组或角色在数据开发组件中转储
单击“汇总表”页签,进入汇总表页面。 单击汇总表名称,进入汇总表详情页面。 可以查看汇总表基本信息和表字段信息。同时,您可以配置异常数据输出信息。 单击“编辑”按钮,并打开“生成异常数据”的开关。开启此项,表示异常数据将按照配置的参数存储到规定的库中。 输入数据库或Schema信息,表示存储异常数据的数据库或Schema。