搜索_华为云

目的 - 数据治理中心 DataArts Studio

目的数据是企业核心资产，企业需要建立起数据字典，有效管理其日益重要的数据和信息资源；同时建立数据持续改进机制，来不断提升数据质量。数据的价值和风险应被有效管理，以支撑企业管理简化、业务流集成、运营效率提升和经营结果的真实呈现。数据准确是科学决策的基础，数据架构和标准的统一是全流程高效运作、语言一致的前提。

帮助中心 > 数据治理中心 DataArts Studio > 数据治理方法论
步骤6：数据开发处理 - 数据治理中心 DataArts Studio

作业开发历史数据到源数据表，使用数据集成将历史数据从OBS导入到SDI贴源层的原始数据表。历史数据清洗，使用数据开发的MRS Hive SQL脚本将源数据表清洗之后导入DWI层的标准出行数据表。将基础数据插入维度表中。将DWI层的标准出行数据导入DWR层的事实表中。数据汇总，通过Hive

帮助中心 > 数据治理中心 DataArts Studio > 快速入门 > 企业版：基于MRS Hive的出租车出行数据治理流程
性能调优概述 - 数据治理中心 DataArts Studio

检查目的端负载是否已达到目的端数据源上限。优先查看目的端数据源的监控指标，查看CPU、内存、IO等参数是否处于高负载状态。在排除目的端负载的情况下，加大作业并发，以提高写入速度。如果第2步也无法有效提升性能，请根据源端抽取慢排查源端的性能因素。如果排除了源端问题的情况下，请参考对应链路性能调优文档尝试进行参数优化。

帮助中心 > 数据治理中心 DataArts Studio > 用户指南 > 数据集成（实时作业） > 任务性能调优
迁移作业原理 - 数据治理中心 DataArts Studio

源端读取速度取决于源端数据源的性能。如需优化，请参见源端数据源的相关说明文档。网络带宽 CDM集群与数据源之间可以通过内网、公网VPN、NAT或专线等方式互通。通过内网互通时，网络带宽是根据不同的CDM实例规格的带宽限制的。 cdm.large实例规格CDM集群网卡的基准/最大带宽为0

帮助中心 > 数据治理中心 DataArts Studio > 用户指南 > 数据集成（CDM作业） > 优化迁移性能
新建DataArts Studio与DWS数据湖的连接 - 数据治理中心 DataArts Studio

Studio与DWS数据湖的连接本章节以新建DWS连接为例，介绍如何建立DataArts Studio与数据仓库底座之间的数据连接。前提条件在创建数据连接前，请确保您已创建所要连接的数据湖（如DataArts Studio所支持的数据库、云服务等）。在创建DWS类型的数据连接

 帮助中心 > 数据治理中心 DataArts Studio > 用户指南 > 管理中心 > 管理中心典型场景教程
HDFS连接参数说明 - 数据治理中心 DataArts Studio

连接的名称，根据连接的数据源类型，用户可自定义便于记忆、区分的连接名。 mrs_hdfs_link Manager IP MRS Manager的浮动IP地址，可以单击输入框后的“选择”来选定已创建的MRS集群，CDM会自动填充下面的鉴权参数。说明：当前DataArts Studio不支持对接“

帮助中心 > 数据治理中心 DataArts Studio > 用户指南 > 数据集成（CDM作业） > 在CDM集群中创建连接 > 配置连接参数
HBase连接参数说明 - 数据治理中心 DataArts Studio

连接的名称，根据连接的数据源类型，用户可自定义便于记忆、区分的连接名。 mrs_hbase_link Manager IP MRS Manager的浮动IP地址，可以单击输入框后的“选择”来选定已创建的MRS集群，CDM会自动填充下面的鉴权参数。说明：当前DataArts Studio不支持对

 帮助中心 > 数据治理中心 DataArts Studio > 用户指南 > 数据集成（CDM作业） > 在CDM集群中创建连接 > 配置连接参数
开发Shell脚本 - 数据治理中心 DataArts Studio

和执行，开发完成的脚本可以在作业中调度运行（请参见开发Pipeline作业）。前提条件已新增Shell脚本，请参见新建脚本。已新建主机连接，该Linux主机用于执行Shell脚本，请参见主机连接参数说明。连接主机的用户需要具有主机/tmp目录下文件的创建与执行权限。 Sh

帮助中心 > 数据治理中心 DataArts Studio > 用户指南 > 数据开发 > 脚本开发 > 开发脚本
达梦数据库 DM连接参数说明 - 数据治理中心 DataArts Studio

名称连接的名称，根据连接的数据源类型，用户可自定义便于记忆、区分的连接名。 dm_link 数据库服务器配置为要连接的数据库的IP地址或域名。单击输入框后的“选择”，可获取用户的DWS、RDS等实例列表。 192.168.0.1 端口配置为要连接的数据库的端口。不同的数据库端口不同，请根据具体情况配置。

帮助中心 > 数据治理中心 DataArts Studio > 用户指南 > 数据集成（CDM作业） > 在CDM集群中创建连接 > 配置连接参数
目的端为HBase/CloudTable - 数据治理中心 DataArts Studio

当选取多个列做rowkey时，连接多列的分隔符，例如：“|”。 toJobConfig.isRowkeyRedundancy 否 Boolean 是否将选做Rowkey的数据同时写入HBase的列。 toJobConfig.algorithm 否枚举创建新HBase表时采用的压缩算法，支持SNAPPY和GZ算法，默认为“NONE”。

帮助中心 > 数据治理中心 DataArts Studio > API参考 > 数据集成API > 附：公共数据结构 > 目的端作业参数说明
调用API方式简介 - 数据治理中心 DataArts Studio

创建API时，有三种认证方式可选，不同认证方式的API支持的调用方式也有所不同，详见表1。表1 API认证与调用方式说明认证方式安全级别授权与认证机制支持的调用方式调用方法示例使用说明（推荐）APP认证高通过APP应用将API授权给应用后，使用应用的密钥对（AppKey和AppSecret）进行安全认证。

帮助中心 > 数据治理中心 DataArts Studio > 用户指南 > 数据服务 > 调用数据服务API > 通过不同方式调用API
上传存量数据 - 数据治理中心 DataArts Studio

CDM会迁移整个目录下的文件到OBS。文件格式：选择“二进制格式”。这里的文件格式是指CDM传输数据时所用的格式，不会改变原始文件自身的格式。迁移文件到文件时，推荐使用“二进制格式”，传输的效率和性能都最优。目的端作业配置：目的连接名称：选择7创建的OBS连接“obslink”。

帮助中心 > 数据治理中心 DataArts Studio > 最佳实践 > 贸易数据极简上云与统计分析 > 使用CDM上传数据到OBS
DataArts Studio支持连接哪些数据源？ - 数据治理中心 DataArts Studio

Studio对接数据源，即为通过管理中心创建数据源的数据连接。DataArts Studio管理中心数据连接与数据集成数据连接相互独立，使用场景各有不同。管理中心的数据连接用于对接数据湖底座，DataArts Studio基于数据湖底座，提供一站式数据开发、治理和服务等能力。数据集成的数据连接仅限于在数据集成

 帮助中心 > 数据治理中心 DataArts Studio > 常见问题 > 管理中心
创建MySQL连接器 - 数据治理中心 DataArts Studio

数据库服务器 MySQL数据库的IP地址或域名。 192.168.1.110 端口 MySQL数据库的端口。 3306 数据库名称 MySQL数据库的名称。 sqoop 用户名拥有MySQL数据库的读、写和删除权限的用户。 admin 密码用户的密码。 - 使用本地API 使

 帮助中心 > 数据治理中心 DataArts Studio > 用户指南 > 数据集成（CDM作业） > 使用教程
Apache HDFS数据连接参数说明 - 数据治理中心 DataArts Studio

URI地址。可以填写为：hdfs://namenode实例的ip:8020。 IP与主机名映射否是否使用集群配置开关打开时显示该参数。运行模式选择“EMBEDDED”、“STANDALONE”时，该参数有效。如果HDFS配置文件使用主机名，需要配置IP与主机的映射。格式：IP与主机名之间使用空格分隔，多对映射使用分号或回车换行分隔。

帮助中心 > 数据治理中心 DataArts Studio > 用户指南 > 管理中心 > 配置DataArts Studio数据连接参数
导出作业 - 数据治理中心 DataArts Studio

script_name 否 String 作业所依赖的脚本名称。 resource_name 否 String 作业所依赖的资源名称。 {job_name}.job文件内容文件中的参数与创建作业接口的请求参数一样，请参考创建作业。 {script_name}.script文件内容

 帮助中心 > 数据治理中心 DataArts Studio > API参考 > 数据开发API（V1） > 作业开发API
Hive连接 - 数据治理中心 DataArts Studio

STANDALONE模式。说明：STANDALONE模式主要是用来解决版本冲突问题的运行模式。当同一种数据连接的源端或者目的端连接器的版本不一致时，存在jar包冲突的情况，这时需要将源端或目的端放在STANDALONE进程里，防止冲突导致迁移失败。 linkConfig.accessKey

帮助中心 > 数据治理中心 DataArts Studio > API参考 > 数据集成API > 附：公共数据结构 > 连接参数说明
配置CDM作业字段映射 - 数据治理中心 DataArts Studio

downloadMap("url")) 取出缓存的IP与地址映射对象。表达式：CommonUtils.getCache("ipList") 判断是否有IP与地址映射缓存。表达式：CommonUtils.cacheExists("ipList") 根据IP取出对应的详细地址：国家_省份_城市_运营商，例如“1xx

帮助中心 > 数据治理中心 DataArts Studio > 用户指南 > 数据集成（CDM作业） > 在CDM集群中创建作业
基本概念 - 数据治理中心 DataArts Studio

在云上和云下的同构/异构数据源之间批量迁移数据。数据源即数据的来源，本质是讲存储或处理数据的媒介，比如：关系型数据库、数据仓库、数据湖等。每一种数据源不同，其数据的存储、传输、处理和应用的模式、场景、技术和工具也不相同。源数据源数据强调数据状态是“创建”之后的“原始状态”

帮助中心 > 数据治理中心 DataArts Studio > 产品介绍
示例场景说明 - 数据治理中心 DataArts Studio

使用DataArts Studio前的准备准备工作步骤3：数据集成通过DataArts Studio平台将源数据上传或者接入到云上。可以将离线或历史数据集成到云上。提供同构/异构数据源之间数据集成的服务，支持单表/文件迁移、整库迁移、增量集成，支持自建和云上的文件系统，关系数据库，数

 帮助中心 > 数据治理中心 DataArts Studio > 快速入门 > 企业版：基于MRS Hive的出租车出行数据治理流程

总条数： 897

上一页
1
...
4
5
6
...
45
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

目的 - 数据治理中心 DataArts Studio

步骤6：数据开发处理 - 数据治理中心 DataArts Studio

性能调优概述 - 数据治理中心 DataArts Studio

迁移作业原理 - 数据治理中心 DataArts Studio

新建DataArts Studio与DWS数据湖的连接 - 数据治理中心 DataArts Studio

HDFS连接参数说明 - 数据治理中心 DataArts Studio

HBase连接参数说明 - 数据治理中心 DataArts Studio

开发Shell脚本 - 数据治理中心 DataArts Studio

达梦数据库 DM连接参数说明 - 数据治理中心 DataArts Studio

目的端为HBase/CloudTable - 数据治理中心 DataArts Studio

调用API方式简介 - 数据治理中心 DataArts Studio

上传存量数据 - 数据治理中心 DataArts Studio

DataArts Studio支持连接哪些数据源？ - 数据治理中心 DataArts Studio

创建MySQL连接器 - 数据治理中心 DataArts Studio

Apache HDFS数据连接参数说明 - 数据治理中心 DataArts Studio

导出作业 - 数据治理中心 DataArts Studio

Hive连接 - 数据治理中心 DataArts Studio

配置CDM作业字段映射 - 数据治理中心 DataArts Studio

基本概念 - 数据治理中心 DataArts Studio

示例场景说明 - 数据治理中心 DataArts Studio

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线