搜索_华为云

开发批处理单任务SQL作业 - 数据治理中心 DataArts Studio

斜的数据并相应地优化连接算法来提高性能） spark.sql.mergeSmallFiles.enabled（启用合并小文件功能，可以通过将小文件合并成较大的文件来提高性能，可以减少处理许多小文件的时间，并通过减少需要从远程存储中读取的文件数量来提高数据本地性。）如果不使用的话

 帮助中心 > 数据治理中心 DataArts Studio > 用户指南 > 数据开发 > 作业开发
华为数据治理思考 - 数据治理中心 DataArts Studio

华为在数字化转型过程中，解决了上述问题，因为华为认识到只有建立了完整的数据治理体系，保证数据内容的质量，才能够真正有效地挖掘企业内部的数据价值，对外提高竞争力。高质量数据是业务创新的基础企业在市场中的竞争领域已经从同一领域市场份额争夺，发展到开发新竞争领域的创新性竞争阶段，这从客观上对

 帮助中心 > 数据治理中心 DataArts Studio > 数据治理方法论 > 华为数据治理案例
PostgreSQL同步到DWS作业配置 - 数据治理中心 DataArts Studio

一致或任务失败。 Postgres数据源复制槽数达到上限时，无法执行新的作业，可以通过设置max_replication_slots的数值提高复制槽的使用上限或手动删除复制槽（Postgres数据源不支持自动删除复制槽）解决，手动删除请参见PostgreSQL数据源如何手动删除复制槽？。

帮助中心 > 数据治理中心 DataArts Studio > 用户指南 > 数据集成（实时作业） > 使用教程
CDM有哪些优势？ - 数据治理中心 DataArts Studio

受限于资源，整体性能较低，对于海量数据场景通常不能满足要求。 CDM任务基于分布式计算框架，自动将任务切分为独立的子任务并行执行，能够极大提高数据迁移的效率。针对Hive、HBase、MySQL、DWS（数据仓库服务）数据源，使用高效的数据导入接口导入数据。多种数据源支持数据

 帮助中心 > 数据治理中心 DataArts Studio > 常见问题 > 数据集成（CDM作业）
Oracle同步到DWS作业配置 - 数据治理中心 DataArts Studio

keyby.enable boolean true - 数据分流开关，在多并发场景下开启数据分流可将数据按规则分配给不同的工作进程写入目的端，可提高写入性能。 sink.keyby.mode string table - 数据分流模式，可选填写： pk：按数据主键值进行分流 table：按表名进行分流

 帮助中心 > 数据治理中心 DataArts Studio > 用户指南 > 数据集成（实时作业） > 使用教程
MRS HDFS数据迁移到OBS - 数据治理中心 DataArts Studio

是否定时执行：如果需要配置作业定时自动执行，可打开此配置。这里保持默认值“否”。抽取并发数：设置同时执行的抽取任务数。CDM支持多个文件的并发抽取，调大参数有利于提高迁移效率是否写入脏数据：否，文件到文件属于二进制迁移，不存在脏数据。作业运行完是否删除：这里保持默认值“不删除”。根据使用场景，也可配置为“删除”，防止迁移作业堆积。

帮助中心 > 数据治理中心 DataArts Studio > 用户指南 > 数据集成（CDM作业） > 使用教程
配置ElasticSearch目的端参数 - 数据治理中心 DataArts Studio

pipeline_id 开启路由开启路由后，支持指定某一列的值作为路由写入Elasticsearch。说明：开启路由前建议先建好目的端索引，可提高查询效率。否路由字段 “开启路由”参数选择为“是”时配置，用于配置目的端路由字段。目的端索引存在但是获取不到字段信息时，支持手动填写字

 帮助中心 > 数据治理中心 DataArts Studio > 用户指南 > 数据集成（离线作业） > 配置作业目的端参数
配置Elasticsearch/云搜索服务（CSS）目的端参数 - 数据治理中心 DataArts Studio

置文件名称）开启路由开启路由后，支持指定某一列的值作为路由写入Elasticsearch。说明：开启路由前建议先建好目的端索引，可提高查询效率。否路由字段 “开启路由”参数选择为“是”时配置，用于配置目的端路由字段。目的端索引存在但是获取不到字段信息时，支持手动填写字

 帮助中心 > 数据治理中心 DataArts Studio > 用户指南 > 数据集成（CDM作业） > 在CDM集群中创建作业 > 配置CDM作业目的端参数
MongoDB同步到DWS作业配置 - 数据治理中心 DataArts Studio

keyby.enable boolean true - 数据分流开关，在多并发场景下开启数据分流可将数据按规则分配给不同的工作进程写入目的端，可提高写入性能。 sink.keyby.mode string table - 数据分流模式，可选填写： pk：按数据主键值进行分流 table：按表名进行分流

 帮助中心 > 数据治理中心 DataArts Studio > 用户指南 > 数据集成（实时作业） > 使用教程
区域和可用区如何选择？ - 数据治理中心 DataArts Studio

如何选择区域？选择区域时，您需要考虑以下几个因素：地理位置一般情况下，建议就近选择靠近您或者您的目标用户的区域，这样可以减少网络时延，提高访问速度。不过，在基础设施、BGP网络品质、资源的操作与配置等方面，中国大陆各个区域间区别不大，如果您或者您的目标用户在中国大陆，可以不用考虑不同区域造成的网络时延问题。

帮助中心 > 数据治理中心 DataArts Studio > 常见问题 > 咨询与计费
关系数据库连接 - 数据治理中心 DataArts Studio

Boolean 是否使用数据库本地API加速。创建MySQL连接时，使用本地API加速，可以使用MySQL的LOAD DATA功能加快数据导入，提高导入数据到MySQL数据库的性能。说明： REPLACE 和 IGNORE 修饰符用于处理与现有行具有相同唯一键值（PRIMARY KEY或UNIQUE索引值）的新输入的行。

帮助中心 > 数据治理中心 DataArts Studio > API参考 > 数据集成API > 附：公共数据结构 > 连接参数说明
MySQL同步到DWS作业配置 - 数据治理中心 DataArts Studio

keyby.enable boolean true - 数据分流开关，在多并发场景下开启数据分流可将数据按规则分配给不同的工作进程写入目的端，可提高写入性能。 sink.keyby.mode string table - 数据分流模式，可选填写： pk：按数据主键值进行分流 table：按表名进行分流

 帮助中心 > 数据治理中心 DataArts Studio > 用户指南 > 数据集成（实时作业） > 使用教程
修改数据标准 - 数据治理中心 DataArts Studio

修改数据标准功能介绍修改数据标准。调用方法请参见如何调用API。 URI PUT /v2/{project_id}/design/standards/{id} 表1 路径参数参数是否必选参数类型描述 project_id 是 String 项目ID，获取方法请参见项目ID和账号ID。

帮助中心 > 数据治理中心 DataArts Studio > API参考 > 数据架构API > 数据标准接口
创建数据标准 - 数据治理中心 DataArts Studio

创建数据标准功能介绍创建数据标准。调用方法请参见如何调用API。 URI POST /v2/{project_id}/design/standards 表1 路径参数参数是否必选参数类型描述 project_id 是 String 项目ID，获取方法请参见项目ID和账号ID。

帮助中心 > 数据治理中心 DataArts Studio > API参考 > 数据架构API > 数据标准接口
云数据库MySQL/MySQL数据库连接参数说明 - 数据治理中心 DataArts Studio

创建MySQL连接时，CDM会自动尝试启用MySQL数据库的local_infile系统变量，开启MySQL的LOAD DATA功能加快数据导入，提高导入数据到MySQL数据库的性能。注意，开启本参数后，日期类型将不符合格式的会存储为0000-00-00，更多详细信息可在MySQL官网文档查看。

帮助中心 > 数据治理中心 DataArts Studio > 用户指南 > 数据集成（CDM作业） > 在CDM集群中创建连接 > 配置连接参数
购买DataArts Studio基础包 - 数据治理中心 DataArts Studio

选择实例的区域，不同区域的资源之间内网不互通。选择区域时，您需要考虑以下几个因素：地理位置一般情况下，建议就近选择靠近您或者您的目标用户的区域，这样可以减少网络时延，提高访问速度。不过，在基础设施、BGP网络品质、资源的操作与配置等方面，中国大陆各个区域间区别不大，如果您或者您的目标用户在中国大陆，可以不用考虑不同区域造成的网络时延问题。

帮助中心 > 数据治理中心 DataArts Studio > 准备工作 > 购买DataArts Studio实例
购买DataArts Studio实例 - 数据治理中心 DataArts Studio

选择实例的区域，不同区域的资源之间内网不互通。选择区域时，您需要考虑以下几个因素：地理位置一般情况下，建议就近选择靠近您或者您的目标用户的区域，这样可以减少网络时延，提高访问速度。不过，在基础设施、BGP网络品质、资源的操作与配置等方面，中国大陆各个区域间区别不大，如果您或者您的目标用户在中国大陆，可以不用考虑不同区域造成的网络时延问题。

帮助中心 > 数据治理中心 DataArts Studio > 用户指南 > 购买并配置DataArts Studio
RDS数据连接参数说明 - 数据治理中心 DataArts Studio

创建MySQL连接时，CDM会自动尝试启用MySQL数据库的local_infile系统变量，开启MySQL的LOAD DATA功能加快数据导入，提高导入数据到MySQL数据库的性能。注意，开启本参数后，日期类型将不符合格式的会存储为0000-00-00，更多详细信息可在MySQL官网文档查看。

帮助中心 > 数据治理中心 DataArts Studio > 用户指南 > 管理中心 > 配置DataArts Studio数据连接参数
数据治理中心 DataArts Studio - 数据治理中心 DataArts Studio

为确保数据使用安全可控，使用数据表需要先申请权限。数据权限模块为用户提供便捷的权限管控能力，提供可视化申请审批流程，并可以进行权限的审计和管理。提高数据安全的同时，还可以方便用户进行数据权限管控。数据权限模块包含数据目录权限、数据表权限和审批中心三大子模块。具备的功能如下所示：权限

 帮助中心 > 数据治理中心 DataArts Studio > 功能总览
正则表达式分隔半结构化文本 - 数据治理中心 DataArts Studio

正则表达式分隔半结构化文本在创建表/文件迁移作业时，对简单CSV格式的文件，CDM可以使用字段分隔符进行字段分隔。但是对于一些复杂的半结构化文本，由于字段值也包含了分隔符，所以无法使用分隔符进行字段分隔，此时可以使用正则表达式分隔。正则表达式参数在源端作业参数中配置，要求源连

 帮助中心 > 数据治理中心 DataArts Studio > 最佳实践 > 数据迁移进阶实践

总条数： 134

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

开发批处理单任务SQL作业 - 数据治理中心 DataArts Studio

华为数据治理思考 - 数据治理中心 DataArts Studio

PostgreSQL同步到DWS作业配置 - 数据治理中心 DataArts Studio

CDM有哪些优势？ - 数据治理中心 DataArts Studio

Oracle同步到DWS作业配置 - 数据治理中心 DataArts Studio

MRS HDFS数据迁移到OBS - 数据治理中心 DataArts Studio

配置ElasticSearch目的端参数 - 数据治理中心 DataArts Studio

配置Elasticsearch/云搜索服务（CSS）目的端参数 - 数据治理中心 DataArts Studio

MongoDB同步到DWS作业配置 - 数据治理中心 DataArts Studio

区域和可用区如何选择？ - 数据治理中心 DataArts Studio

关系数据库连接 - 数据治理中心 DataArts Studio

MySQL同步到DWS作业配置 - 数据治理中心 DataArts Studio

修改数据标准 - 数据治理中心 DataArts Studio

创建数据标准 - 数据治理中心 DataArts Studio

云数据库MySQL/MySQL数据库连接参数说明 - 数据治理中心 DataArts Studio

购买DataArts Studio基础包 - 数据治理中心 DataArts Studio

购买DataArts Studio实例 - 数据治理中心 DataArts Studio

RDS数据连接参数说明 - 数据治理中心 DataArts Studio

数据治理中心 DataArts Studio - 数据治理中心 DataArts Studio

正则表达式分隔半结构化文本 - 数据治理中心 DataArts Studio

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线