搜索_华为云

SQLServer到MRS Hudi参数调优 - 数据治理中心 DataArts Studio

分区表桶数 = MAX(单分区数据量大小(G)/2G*2，再后向上取整，1)。其中，要注意的是：需要使用的是表的总数据大小，而不是压缩以后的文件大小。桶的设置以偶数最佳，非分区表最小桶数请设置4个，分区表最小桶数请设置1个。同时，可通过在Hudi的目的端配置中单击“Hudi表属

 帮助中心 > 数据治理中心 DataArts Studio > 用户指南 > 数据集成（实时作业） > 任务性能调优
通过数据开发实现数据增量迁移 - 数据治理中心 DataArts Studio

获取CDM作业的JSON 修改JSON 创建DLF作业获取CDM作业的JSON 进入CDM主界面，创建一个DWS到OBS的表/文件迁移作业。在CDM“作业管理”界面的“表/文件迁移”页签下，找到已创建的作业，单击作业操作列的“更多 > 查看作业JSON”，如图1所示。您也可以使用其它已创建好的CDM作业JSON。

帮助中心 > 数据治理中心 DataArts Studio > 最佳实践
关系数据库连接 - 数据治理中心 DataArts Studio

约束冲突处理配置为"insert into"，默认使用IGNORE，与唯一键值上的现有行重复的新行将被丢弃，任务不会终止。因为Mysql服务机制无法在操作过程中停止文件传输，此情况下，CDM界面显示写入记录与实际更新行数会不一致。 Mysql Local模式详情请参见：https://dev.mysql.com/doc/refman/8

帮助中心 > 数据治理中心 DataArts Studio > API参考 > 数据集成API > 附：公共数据结构 > 连接参数说明
Apache Hive数据连接参数说明 - 数据治理中心 DataArts Studio

uris配置项。例如：thrift://host-192-168-1-212:9083 IP与主机名映射否使用集群配置为否时，是必选项。如果Hadoop配置文件使用主机名，需要配置IP与主机的映射。格式：IP与主机名之间使用空格分隔，多对映射使用分号或回车换行分隔。 KMS密钥否使用集群配置为是时，是必选项。

帮助中心 > 数据治理中心 DataArts Studio > 用户指南 > 管理中心 > 配置DataArts Studio数据连接参数
（可选）购买规格增量包 - 数据治理中心 DataArts Studio

限。技术资产数量增量包：不同版本的DataArts Studio实例，提供了不同的技术资产数量规格限制。该规格是以数据目录中表和OBS文件的数量计算的，您可以在新商业模式的DataArts Studio实例卡片上通过“更多 > 配额使用量”查看使用量。当您的技术资产数量接近或

 帮助中心 > 数据治理中心 DataArts Studio > 准备工作 > 购买DataArts Studio实例
配置环境变量 - 数据治理中心 DataArts Studio

管理 > 配置”。单击“环境变量”，在“环境变量配置”页面，选择“导入”。在导入环境变量对话框中，选择已上传至OBS或者本地的环境变量文件，以及重命名策略。图1 导入环境变量导出环境变量参考访问DataArts Studio实例控制台，登录DataArts Studio管理控制台。

帮助中心 > 数据治理中心 DataArts Studio > 用户指南 > 数据开发 > 配置管理 > 配置
通过数据开发使用参数传递灵活调度CDM作业 - 数据治理中心 DataArts Studio

在“连接管理”页签中，单击“新建连接”，分别创建Oracle数据连接和MRS Hive数据连接，详情请参见新建Oracle数据连接和新建MRS Hive数据连接。在“表/文件迁移”页签中，单击“新建作业”，创建数据迁移作业。配置Oracle源端参数、MRS hive目的端参数，并配置传递参数，参数形式为 ${

帮助中心 > 数据治理中心 DataArts Studio > 最佳实践
Go - 数据治理中心 DataArts Studio
Go - 数据治理中心 DataArts Studio

生成一个新的Signer，输入AppKey和AppSecret。 // 认证用的ak和sk编码到代码中或者明文存储都有很大的安全风险，建议在配置文件或者环境变量中密文存放，使用时解密，确保安全； // 本示例以ak和sk保存在环境变量中来实现身份验证为例，运行本示例前请先在本地环境中设置环境变量SDK_AK和SDK_SK。

帮助中心 > 数据治理中心 DataArts Studio > SDK参考 > 数据服务SDK参考 > 使用APP认证调用API
指定集群创建作业 - 数据治理中心 DataArts Studio

作业列表，请参见jobs数据结构说明。表4 Job 参数是否必选参数类型描述 job_type 是 String 作业类型： NORMAL_JOB：表/文件迁移。 BATCH_JOB：整库迁移。 SCENARIO_JOB：场景迁移。 from-connector-name 是 String 源端连接类型，对应的连接参数如下：

帮助中心 > 数据治理中心 DataArts Studio > API参考 > 数据集成API > 作业管理
支持的数据类型 - 数据治理中心 DataArts Studio

这种类型能够存储最多4GB的数据。当字符集发生转换时，这种类型会受到影响。不支持不支持 bfile 可以在数据库列中存储一个oracle目录对象和一个文件名，用户可以通过它来读取这个文件。不支持不支持其他类型 rowid 实际上是数据库表中行的地址，它有10字节长。不支持不支持 urowid 是一

 帮助中心 > 数据治理中心 DataArts Studio > 用户指南 > 数据集成（CDM作业） > 支持的数据源
PostgreSQL同步到DWS作业配置 - 数据治理中心 DataArts Studio

在源数据库的“pg_hba.conf”配置文件的所有配置前增加一行配置“host replication <src_user_name> <drs_instance_ip>/32 <认证方式>”；认证方式可参考PostgreSQL官方文档pg_hba.conf文件配置，常见的认证方式有scram-sha-256等。

帮助中心 > 数据治理中心 DataArts Studio > 用户指南 > 数据集成（实时作业） > 使用教程
逻辑模型 - 数据治理中心 DataArts Studio

更新：当数据重复时系统中的原有数据为草稿状态，则会覆盖生成新的草稿数据。系统中的原有数据为发布状态，则会生成下展数据。单击“添加文件”，选择编辑完成的导入模板。单击“上传文件”，上传完成后，自动跳转到“上次导入”页签，查看已导入的数据。单击“关闭”退出该页面。导入LDM 导入LDM模型

 帮助中心 > 数据治理中心 DataArts Studio > 用户指南 > 数据架构 > 数据调研
创建企业模式工作空间 - 数据治理中心 DataArts Studio

ojectId}即项目ID。说明：数据开发作业运行完以后，运行结果日志会存储在OBS桶路径下面，便于查看运行历史记录，文件格式为xxxxx.log的文件就是作业运行日志，xxxxx表示作业id。已经运行完的SQL结果，删除历史记录后，不会影响业务。 DLI脏数据OBS路径用于指定DataArts

帮助中心 > 数据治理中心 DataArts Studio > 用户指南 > 购买并配置DataArts Studio > （可选）升级企业模式工作空间
随机集群创建作业并执行 - 数据治理中心 DataArts Studio

作业并执行作业。表4 Job 参数是否必选参数类型描述 job_type 是 String 作业类型： NORMAL_JOB：表/文件迁移。 BATCH_JOB：整库迁移。 SCENARIO_JOB：场景迁移。 from-connector-name 是 String 源端连接类型，对应的连接参数如下：

帮助中心 > 数据治理中心 DataArts Studio > API参考 > 数据集成API > 作业管理
修改作业 - 数据治理中心 DataArts Studio

作业列表，请参见jobs数据结构说明。表4 Job 参数是否必选参数类型描述 job_type 是 String 作业类型： NORMAL_JOB：表/文件迁移。 BATCH_JOB：整库迁移。 SCENARIO_JOB：场景迁移。 from-connector-name 是 String 源端连接类型，对应的连接参数如下：

帮助中心 > 数据治理中心 DataArts Studio > API参考 > 数据集成API > 作业管理
DataArts Studio支持的数据源 - 数据治理中心 DataArts Studio

配置相关策略来控制用户对这些组件的访问权限。 MapReduce服务（MRS Hudi） Hudi是一种数据湖的存储格式，在Hadoop文件系统之上提供了更新数据和删除数据的能力以及消费变化数据的能力。支持多种计算引擎，提供IUD接口，在HDFS的数据集上提供了插入更新和增量拉取的流原语。

帮助中心 > 数据治理中心 DataArts Studio > 用户指南 > 管理中心
DataArts Studio数据开发作业告警最佳实践 - 数据治理中心 DataArts Studio

单击作业目录中的，选择“显示复选框”。图1 显示作业复选框勾选需要配置失败重试的作业，单击 > 作业配置，进入作业配置窗口。对于CDM Job作业，建议仅选择文件类的CDM Job作业或启用了导入阶段表的数据类CDM Job作业。未启用导入阶段表的数据类CDM Job作业可能因作业失败重试引起数据重复写入，导致迁移前后的数据不一致。

帮助中心 > 数据治理中心 DataArts Studio > 最佳实践
计费说明 - 数据治理中心 DataArts Studio

Studio的过程中，可能还会产生以下相关服务的费用，敬请知悉： OBS服务：在数据集成或数据开发时，DataArts Studio会将脏数据或日志文件写入到OBS服务中，则会产生对象存储服务费用，收费标准请参见OBS价格详情。 APIG服务：在使用数据服务共享版发布API到API网关共享

 帮助中心 > 数据治理中心 DataArts Studio > 产品介绍
MRS Hetu数据连接参数说明 - 数据治理中心 DataArts Studio

WebUI界面，给计算实例添加如下自定义参数：参数名为“protocol.v1.alternate-header-name”，值为“Presto”，参数文件为“coordinator.config.properties”和“worker.config.properties”。注意，通过输入框

 帮助中心 > 数据治理中心 DataArts Studio > 用户指南 > 管理中心 > 配置DataArts Studio数据连接参数
MySQL到MRS Hudi参数调优 - 数据治理中心 DataArts Studio

分区表桶数 = MAX(单分区数据量大小(G)/2G*2，再后向上取整，1)。其中，要注意的是：需要使用的是表的总数据大小，而不是压缩以后的文件大小。桶的设置以偶数最佳，非分区表最小桶数请设置4个，分区表最小桶数请设置1个。同时，可通过在Hudi的目的端配置中单击“Hudi表属

 帮助中心 > 数据治理中心 DataArts Studio > 用户指南 > 数据集成（实时作业） > 任务性能调优

总条数： 374

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

SQLServer到MRS Hudi参数调优 - 数据治理中心 DataArts Studio

通过数据开发实现数据增量迁移 - 数据治理中心 DataArts Studio

关系数据库连接 - 数据治理中心 DataArts Studio

Apache Hive数据连接参数说明 - 数据治理中心 DataArts Studio

（可选）购买规格增量包 - 数据治理中心 DataArts Studio

配置环境变量 - 数据治理中心 DataArts Studio

通过数据开发使用参数传递灵活调度CDM作业 - 数据治理中心 DataArts Studio

Go - 数据治理中心 DataArts Studio

指定集群创建作业 - 数据治理中心 DataArts Studio

支持的数据类型 - 数据治理中心 DataArts Studio

PostgreSQL同步到DWS作业配置 - 数据治理中心 DataArts Studio

逻辑模型 - 数据治理中心 DataArts Studio

创建企业模式工作空间 - 数据治理中心 DataArts Studio

随机集群创建作业并执行 - 数据治理中心 DataArts Studio

修改作业 - 数据治理中心 DataArts Studio

DataArts Studio支持的数据源 - 数据治理中心 DataArts Studio

DataArts Studio数据开发作业告警最佳实践 - 数据治理中心 DataArts Studio

计费说明 - 数据治理中心 DataArts Studio

MRS Hetu数据连接参数说明 - 数据治理中心 DataArts Studio

MySQL到MRS Hudi参数调优 - 数据治理中心 DataArts Studio

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线