检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
场景说明 本案例基于某电影网站的用户和评分数据,使用DataArts Studio将MySQL原始数据处理为标准点数据集和边数据集,并同步到OBS和MRS Hive中,然后通过Import GES节点自动生成元数据后,将图数据导入到GES服务中。 图1 业务场景说明 需要额外说明的是
小,只按照数据条数计算。在debezium.max.queue.size无法有效限制内存占用时,考虑显式设置该值来限制缓存数据的大小。 目的端优化 Kafka写入优化 Kafka写入通常速率极快,若有阻塞的场景请优先增加并发解决。 父主题: 任务性能调优
通过白名单授权IAM认证方式API IAM认证方式的API当前支持应用和白名单两种授权方式,通过IAM类型应用授权仅能授权给当前账号,而通过白名单授权可授权给任意账号,请您根据使用场景任选一种方式进行授权。 通过IAM类型应用授权。IAM类型应用本质上是当前的华为账号,每个DataArts
嵌入水印任务的名称,只能包含英文字母、数字、中文字符、下划线或中划线,且长度为1~64个字符。 为便于水印嵌入任务管理,建议名称中标明要嵌入水印的对象和水印标识。 描述 为更好地识别嵌入水印任务,此处加以描述信息。 *水印标识 系统会将水印标识嵌入到数据表中,标识长度不超过16个字符即可。
name_ch 是 String 中文名称。 name_en 是 String 英文名称。 description 否 String 描述信息,业务对象必填。 alias 否 String 别名。 data_owner 否 String 数据owner部门。 data_owner_list
ken的值)。 表3 请求Body参数 参数 是否必选 参数类型 描述 start 是 Object 集群启动操作,定义集群启动标识,为空对象。 响应参数 状态码: 200 表4 响应Body参数 参数 参数类型 描述 jobId Array of strings 作业ID。 请求示例
Snapshot复制文件至MRS。CDM的作业配置: “源目录或文件”输入:/hbase/data/default/src_test/.snapshot/s0 目的端“写入目录”输入:/hbase/data/default/表名 执行fixMeta和fixAssignments等命令恢复表,参考使用命令恢复历史不变的数据。
指定每次请求获取的行数,根据数据源端和作业数据规模的大小配置该参数。如果配置过大或过小,可能影响作业的时长。 Oracle到DWS迁移时,可能出现目的端写太久导致迁移超时的情况。此时请减少Oracle源端“单次请求行数”参数值的设置。 1000 单次提交行数 可选参数,单击“显示高级属性”后显示。
直接编辑作业的JSON文件,作用等同于修改作业的参数配置。 源目的统计查询 可对已经配置好的数据库类作业打开预览窗口,预览最多1000条数据内容。可对比源端和目的端的数据,也可以通过对比记录数来看迁移结果是否成功、数据是否丢失。 修改 修改作业参数 可重新配置作业参数,支持重新选择源连接和目的连接。 编辑作业JSON
果配置过大或过小,可能影响作业的时长。 1000 单次提交行数 可选参数,单击“显示高级属性”后显示。 指定每次批量提交的行数,根据数据目的端和作业数据规模的大小配置该参数。如果配置过大或过小,可能影响作业的时长。 10000 SSL加密 可选参数,控制是否通过SSL加密方式连接数据仓库。
BINARY_FILE:二进制格式,不解析文件内容直接传输,不要求文件格式必须为二进制。适用于文件到文件的原样复制。 当选择“BINARY_FILE”时,目的端也必须为文件系统。 fromJobConfig.lineSeparator 否 String 文件中的换行符,默认自动识别"\\n"、"\
参数 参数类型 描述 total Integer 总量。 records Array of CatalogVO objects 查询到的审批单对象(CatalogVO)数组。 表7 CatalogVO 参数 参数类型 描述 name_ch String 中文名称。 name_en String
name_ch 是 String 中文名称。 name_en 是 String 英文名称。 description 否 String 描述信息,业务对象必填。 alias 否 String 别名。 data_owner 否 String 数据owner部门。 data_owner_list
小,只按照数据条数计算。在debezium.max.queue.size无法有效限制内存占用时,考虑显式设置该值来限制缓存数据的大小。 目的端优化 Hudi写入优化 Hudi表写入性能慢,优先审视表设计是否合理,建议使用Hudi Bucket索引的MOR表,并根据实际数据量配置B
SQL脚本,脚本参数发生变化,可单击刷新按钮同步。 UDF Jar 否 当作业所属集群选择独享集群时,该参数有效。在选择UDF Jar之前,您需要将UDF Jar包上传至OBS桶中,并在“资源管理”页面中新建资源,具体操作请参考新建资源。 用户可以在SQL中调用插入Jar包中的自定义函数。 DLI队列 是 默认选
作业名称不得包含中文字符、超出长度限制等。如果作业名称不符合规则,将导致提交MRS作业失败。 Jar包资源 是 选择Jar包。在选择Jar包之前,您需要先将Jar包上传至OBS桶中,并在“资源管理”页面中新建资源将Jar包添加到资源管理列表中,具体操作请参考新建资源。 Jar包参数 否 Jar包的参数。 输入数据路径
在作业的“操作”列,支持作业级别的恢复。停止操作请参见实时集成作业监控:恢复。 6 查看作业实例状态 单击作业名称前方的,查看该作业下的子作业ID、源端数据源、目的端数据源、异常信息等内容。 7 查看作业详细信息 单击作业名称,支持查看该作业的基本信息、监控信息、日志信息。查看作业详细信息请参见实时集成作业监控:查看作业详细信息。
CSV_FILE:CSV格式。 PARQUET_FILE:PARQUET格式。 BINARY_FILE:二进制格式。 当选择“BINARY_FILE”时,目的端也必须为文件系统。 fromJobConfig.columnList 否 String 需要抽取的列号,列号之间使用“&”分割,并由小到大排序,例如:“1&3&5”。
CDM有哪些优势? 云数据迁移(Cloud Data Migration,简称CDM)服务基于分布式计算框架,利用并行化处理技术,使用CDM迁移数据的优势如表1所示。 表1 CDM优势 优势项 用户自行开发 CDM 易使用 自行准备服务器资源,安装配置必要的软件并进行配置,等待时间长。
准备工作简介 您需要完成注册华为账号、购买DataArts Studio实例、访问DataArts Studio实例控制台、管理工作空间、授权用户使用DataArts Studio等一系列准备工作,才能开始DataArts Studio的正式使用。 需要进行的准备工作如下图所示,具体操作请参考后续章节。