检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
SQL脚本,脚本参数发生变化,可单击刷新按钮同步。 UDF Jar 否 当作业所属集群选择独享集群时,该参数有效。在选择UDF Jar之前,您需要将UDF Jar包上传至OBS桶中,并在“资源管理”页面中新建资源,具体操作请参考新建资源。 用户可以在SQL中调用插入Jar包中的自定义函数。 DLI队列 是 默认选
作业名称不得包含中文字符、超出长度限制等。如果作业名称不符合规则,将导致提交MRS作业失败。 Jar包资源 是 选择Jar包。在选择Jar包之前,您需要先将Jar包上传至OBS桶中,并在“资源管理”页面中新建资源将Jar包添加到资源管理列表中,具体操作请参考新建资源。 Jar包参数 否 Jar包的参数。 输入数据路径
在作业的“操作”列,支持作业级别的恢复。停止操作请参见实时集成作业监控:恢复。 6 查看作业实例状态 单击作业名称前方的,查看该作业下的子作业ID、源端数据源、目的端数据源、异常信息等内容。 7 查看作业详细信息 单击作业名称,支持查看该作业的基本信息、监控信息、日志信息。查看作业详细信息请参见实时集成作业监控:查看作业详细信息。
CSV_FILE:CSV格式。 PARQUET_FILE:PARQUET格式。 BINARY_FILE:二进制格式。 当选择“BINARY_FILE”时,目的端也必须为文件系统。 fromJobConfig.columnList 否 String 需要抽取的列号,列号之间使用“&”分割,并由小到大排序,例如:“1&3&5”。
CDM有哪些优势? 云数据迁移(Cloud Data Migration,简称CDM)服务基于分布式计算框架,利用并行化处理技术,使用CDM迁移数据的优势如表1所示。 表1 CDM优势 优势项 用户自行开发 CDM 易使用 自行准备服务器资源,安装配置必要的软件并进行配置,等待时间长。
准备工作简介 您需要完成注册华为账号、购买DataArts Studio实例、访问DataArts Studio实例控制台、管理工作空间、授权用户使用DataArts Studio等一系列准备工作,才能开始DataArts Studio的正式使用。 需要进行的准备工作如下图所示,具体操作请参考后续章节。
查看并修改CDM集群配置 操作场景 CDM集群已经创建成功后,您可以查看集群基本信息,并修改集群的配置。 查看集群基本信息: 集群信息:集群版本、创建时间、项目ID、实例ID和集群ID等。 节点配置:集群规格、CPU和内存配置等信息。 网络信息:网络配置。 支持修改集群的以下配置:
配置PostgreSQL源端参数 支持从云端的数据库服务导出数据。 这些非云服务的数据库,既可以是用户在本地数据中心自建的数据库,也可以是用户在ECS上部署的,还可以是第三方云上的数据库服务。 表1 PostgreSQL作为源端时的作业参数 参数类型 参数名 说明 取值样例 基本参数
配置SQLServer源端参数 支持从云端的数据库服务导出数据。 这些非云服务的数据库,既可以是用户在本地数据中心自建的数据库,也可以是用户在ECS上部署的,还可以是第三方云上的数据库服务。 表1 SQLServer作为源端时的作业参数 参数类型 参数名 说明 取值样例 基本参数
自定义SQL的运行结果展示最多300条,超出部分会自动截断。 对账作业结果 对账作业运行结果中,左侧表示源端表行数规则运行结果,右侧表示目的端表行数规则运行结果,误差率表示两端数据行数的差异比率,误差率为0表示两端一致。 更多 > 处理&记录 对当前规则实例进行进一步处理。支持填写处理意见,关闭问题和移交他人。
此版本规格,执行调度批处理作业或者启动实时作业时就会提示作业节点调度次数/天超过配额。 [3] 技术资产数量:该规格指的是数据目录中表和OBS文件的数量,可以通过“技术资产数量增量包”进行扩容,如何购买请参考购买技术资产数量增量包。 [4] 数据模型数量:该规格指的是数据架构中逻
(可选)购买DataArts Studio功能增量包 DataArts Studio采用基础包+增量包的计费模式。如果购买的基础包无法满足您的使用需求,您可以额外购买增量包。在购买增量包前,请确保您已购买DataArts Studio实例。 增量包大体可分为功能增量包与规格增量包,功能增量包用于拓展DataArts
创建CDM集群 CDM采用独立集群的方式为用户提供安全可靠的数据迁移服务,各集群之间相互隔离,不可相互访问。 CDM集群可用于如下场景: 用于创建并运行数据迁移作业。 作为管理中心组件连接数据湖时的Agent代理。 前提条件 已申请VPC、子网和安全组。CDM集群连接云上其它服务
数据开发中的通知配置、备份管理、作业标签、委托配置、默认项等数据不支持导入导出,如有涉及,请您进行手动配置同步。 导入脚本、作业、环境变量、资源功能部分依赖于OBS服务。 旧空间导出数据 请您登录控制台首页,选择并进入旧工作空间的“数据开发”模块,然后执行如下操作依次导出脚本、导出作业、导出环境变量、导出资源。
度受限。 技术资产数量增量包: 不同版本的DataArts Studio实例,提供了不同的技术资产数量规格限制。该规格是以数据目录中表和OBS文件的数量计算的,您可以在新商业模式的DataArts Studio实例卡片上通过“更多 > 配额使用量”查看使用量。当您的技术资产数量接
如何查看审计日志 概述 云审计服务(Cloud Trace Service,CTS)可以记录DataArts Studio相关的操作事件,用于支撑安全分析、合规审计、资源跟踪和问题定位等常见应用场景。 在您开启了云审计服务后,系统开始记录DataArts Studio的相关操作,
在DataArts Studio数据开发模块中,您将完成以下步骤: 数据管理 脚本开发 作业开发 历史数据到源数据表,使用数据集成将历史数据从OBS导入到SDI贴源层的原始数据表。 历史数据清洗,使用数据开发的MRS Hive SQL脚本将源数据表清洗之后导入DWI层的标准出行数据表。
随机脱敏:支持日期类型和数值类型随机脱敏,将日期或数值脱敏为指定区间范围之内或样本库中的值。新建样本库的请参考管理样本库章节。注意,选择样本库脱敏时,OBS样本文件只能用于DLI引擎的静态脱敏任务,HDFS样本文件只能用于MRS引擎的静态脱敏任务。静态脱敏场景与引擎之间的对应关系请参考参考:静态脱敏场景介绍。
Elasticsearch连接参数说明 Elasticsearch连接适用于第三方云的Elasticsearch服务,以及用户在本地数据中心或ECS上自建的Elasticsearch。 Elasticsearch连接器仅支持非安全模式的Elasticsearch集群。 作业运行中
解绑/绑定CDM集群的EIP 操作场景 CDM集群创建完成后,支持解绑或绑定EIP。EIP即弹性公网IP,由虚拟私有云(Virtual Private Cloud,简称VPC)负责其计费。 如果CDM需要访问本地数据源、Internet的数据源,或者跨VPC的云服务,则必须要为C