搜索_华为云

开发一个DLI Spark作业 - 数据治理中心 DataArts Studio

已开通对象存储服务OBS，并创建桶，例如“obs://dlfexample”，用于存放Spark作业的JAR包。已开通数据湖探索服务DLI，并创建Spark集群“spark_cluster”，为Spark作业提供运行所需的物理资源。获取Spark作业代码本示例使用的Spar

帮助中心 > 数据治理中心 DataArts Studio > 用户指南 > 数据开发 > 使用教程
开发一个MRS Spark Python作业 - 数据治理中心 DataArts Studio

n/in.txt obs://obs-tongji/python/out 其中： obs://obs-tongji/python/wordcount.py为脚本存放路径； obs://obs-tongji/python/in.txt为wordcount.py的传入参数路径，可以把需要统计的单词写到里面；

帮助中心 > 数据治理中心 DataArts Studio > 用户指南 > 数据开发 > 使用教程
（可选）修改作业日志存储路径 - 数据治理中心 DataArts Studio

作业日志和DLI脏数据默认存储在以dlf-log-{Project id}命名的OBS桶中，您也可以自定义日志和DLI脏数据存储路径，支持基于工作区全局配置OBS桶。约束限制该功能依赖于OBS服务。 OBS路径仅支持OBS桶，不支持并行文件系统。前提条件修改工作空间的用户账号，需要满足如下任一条件： DAYU

帮助中心 > 数据治理中心 DataArts Studio > 准备工作 > 管理工作空间
（可选）修改作业日志存储路径 - 数据治理中心 DataArts Studio

作业日志和DLI脏数据默认存储在以dlf-log-{Project id}命名的OBS桶中，您也可以自定义日志和DLI脏数据存储路径，支持基于工作区全局配置OBS桶。约束限制该功能依赖于OBS服务。 OBS路径仅支持OBS桶，不支持并行文件系统。前提条件修改工作空间的用户账号，需要满足如下任一条件： DAYU

帮助中心 > 数据治理中心 DataArts Studio > 用户指南 > 购买并配置DataArts Studio > 创建并配置简单模式工作空间
OBS导入数据到SQL Server时出现Unable to execute the SQL statement怎么处理？ - 数据治理中心 DataArts Studio

statement. Cause : 将截断字符串或二进制数据。原因分析用户OBS中的数据超出了SQL Server数据库的字段长度限制。解决方案在SQL Server数据库中建表时，将数据库字段改大，长度不能小于源端OBS中的数据长度。父主题：数据集成（CDM作业）

帮助中心 > 数据治理中心 DataArts Studio > 常见问题 > 数据集成（CDM作业）
查询业务资产 - 数据治理中心 DataArts Studio

dexcription Object 标签描述。 display_text String 标签的名称。 relation_guid String 关联的guid。 tag_guid String 标签关联的guid。状态码： 400 表8 响应Body参数参数参数类型描述 error_code

帮助中心 > 数据治理中心 DataArts Studio > API参考 > 数据目录API > 业务资产接口
参考：作业分片维度 - 数据治理中心 DataArts Studio

HDFS 支持按文件分片。 Apache HBase 支持按HBase的Region分片。 Apache Hive HDFS读取方式时，支持按Hive文件分片。 JDBC读取方式时，不支持分片。对象存储对象存储服务（OBS）支持按文件分片。文件系统 FTP 支持按文件分片。 SFTP

帮助中心 > 数据治理中心 DataArts Studio > 用户指南 > 数据集成（CDM作业） > 优化迁移性能
新建复合指标 - 数据治理中心 DataArts Studio

如果系统中已有的编码和模板中的编码相同，系统则认为是数据重复。不更新：当数据重复时，不会替换系统中原有的数据。更新：当数据重复时系统中的原有数据为草稿状态，则会覆盖生成新的草稿数据。系统中的原有数据为发布状态，则会生成下展数据。单击“添加文件”，选择编辑完成的导入模板。单击“上

 帮助中心 > 数据治理中心 DataArts Studio > 用户指南 > 数据架构 > 指标设计 > 技术指标
PostgreSQL与DWS字段类型映射 - 数据治理中心 DataArts Studio

Migration会根据源端的字段类型按默认规则转换成目的端字段类型，并以此完成自动建表和实时同步。字段类型映射规则当源端为PostgreSQL，目的端为DWS时，支持的字段类型请参见下表，以确保数据完整同步到目的端。表1 PostgreSQL > DWS支持的字段类型类别数据类型（PostgreSQL）

帮助中心 > 数据治理中心 DataArts Studio > 用户指南 > 数据集成（实时作业） > 字段类型映射关系
（可选）购买DataArts Studio功能增量包 - 数据治理中心 DataArts Studio

于您对容灾能力和网络时延的要求。如果您的应用需要较高的容灾能力，建议您将资源部署在同一区域的不同可用区内。如果您的应用要求实例之间的网络延时较低，则建议您将资源创建在同一可用区内。详情请参见什么是可用区。工作空间选择需要使用批量数据迁移增量包的工作空间。只有在关联了工作

 帮助中心 > 数据治理中心 DataArts Studio > 准备工作 > 购买DataArts Studio实例
查看并修改CDM集群配置 - 数据治理中心 DataArts Studio

常时，会发送短信或邮件通知用户。该功能产生的消息通知不会计入收费项。用户隔离：控制其他用户是否能够查看、操作该集群中的迁移作业和连接。开启该功能时，该集群中的迁移作业、连接会被隔离，华为账号下的其他IAM用户无法查看、操作该集群中的迁移作业和连接。按组批量启动作业会运行组内

 帮助中心 > 数据治理中心 DataArts Studio > 用户指南 > 数据集成（CDM作业） > 创建并管理CDM集群
PostgreSQL数据源如何手动删除复制槽？ - 数据治理中心 DataArts Studio

PostgreSQL数据源不会自动删除复制槽，当复制槽数达到上限时，无法执行新的作业，需要手动删除复制槽。原因分析 PostgreSQL数据源不会自动删除复制槽。解决方案登录作业使用的源数据库。查询同步任务选择的database对象所对应的流复制槽名称。 select slot_name from

帮助中心 > 数据治理中心 DataArts Studio > 常见问题 > 数据集成（实时作业）
时间宏变量使用解析 - 数据治理中心 DataArts Studio

在创建表/文件迁移作业时，CDM支持在源端和目的端的以下参数中配置时间宏变量：源端的源目录或文件源端的表名 “通配符”过滤类型中的目录过滤器和文件过滤器 “时间过滤”中的起始时间和终止时间分区过滤条件和Where子句目的端的写入目录目的端的表名支持通过宏定义变量表示符“${}”来完成时间类型的宏定义，当

 帮助中心 > 数据治理中心 DataArts Studio > 最佳实践 > 数据迁移进阶实践
什么是数据血缘关系？ - 数据治理中心 DataArts Studio

可追溯性：数据的血缘关系，体现了数据的生命周期，体现了数据从产生到消亡的整个过程，具备可追溯性。层次性：数据的血缘关系是有层次的。对数据的分类、归纳、总结等对数据进行的描述信息又形成了新的数据，不同程度的描述信息形成了数据的层次。 DataArts Studio生成的血缘关系图如图1所示，为数据表对象，为作

 帮助中心 > 数据治理中心 DataArts Studio > 常见问题 > 数据目录
编排API简介 - 数据治理中心 DataArts Studio

编排API简介数据服务API编排是指将已经开发好的服务API接口，在无需编写复杂代码的情况下，根据特定的业务逻辑和流程进行可视化的重组和重构，从而实现在不影响原生接口的前提下进行简便的二次开发。API编排为您提供拖拽式、可视化的API工作流程编排能力，您可以按照业务逻辑，以串行

 帮助中心 > 数据治理中心 DataArts Studio > 用户指南 > 数据服务 > 开发数据服务API > 编排API
新建时间限定 - 数据治理中心 DataArts Studio

原子指标是计算逻辑的标准化定义，时间限定则是条件限制的标准化定义。为保障所有统计指标统一、标准、规范地构建，时间限定在业务板块内唯一，并唯一归属于一个来源逻辑表，计算逻辑也以该来源逻辑表模型的字段为基础进行定义。由于一个时间限定的定义可能来自于归属不同数据域的多个逻辑表，因此一个时间限定可能归属于多个数据域。

帮助中心 > 数据治理中心 DataArts Studio > 用户指南 > 数据架构 > 指标设计 > 技术指标
目的 - 数据治理中心 DataArts Studio

日益重要的数据和信息资源；同时建立数据持续改进机制，来不断提升数据质量。数据的价值和风险应被有效管理，以支撑企业管理简化、业务流集成、运营效率提升和经营结果的真实呈现。数据准确是科学决策的基础，数据架构和标准的统一是全流程高效运作、语言一致的前提。当前企业数据面临很多的问题：没

 帮助中心 > 数据治理中心 DataArts Studio > 数据治理方法论
运行历史 - 数据治理中心 DataArts Studio

运行历史运行历史功能可支持查看脚本、作业和节点的一周（7天）内用户的运行记录。前提条件运行历史功能依赖于OBS桶，若要使用该功能，必须先配置OBS桶。请参考配置OBS桶进行配置。脚本运行历史参考访问DataArts Studio实例控制台，登录DataArts Studio管理控制台。

帮助中心 > 数据治理中心 DataArts Studio > 用户指南 > 数据开发
购买批量数据迁移增量包 - 数据治理中心 DataArts Studio

于您对容灾能力和网络时延的要求。如果您的应用需要较高的容灾能力，建议您将资源部署在同一区域的不同可用区内。如果您的应用要求实例之间的网络延时较低，则建议您将资源创建在同一可用区内。详情请参见什么是可用区。工作空间选择需要使用批量数据迁移增量包的工作空间。只有在关联了工作

 帮助中心 > 数据治理中心 DataArts Studio > 用户指南 > 购买并配置DataArts Studio > 购买DataArts Studio增量包
配置FTP/SFTP源端参数 - 数据治理中心 DataArts Studio

参数。JSON文件中存储的JSON对象的类型，可以选择“JSON对象”或“JSON数组”。 JSON对象记录节点当“文件格式”选择为“JSON格式”并且“JSON类型”为“JSON对象”时，才有该参数。对该JSON节点下的数据进行解析，如果该节点对应的数据为JSON数组，那么

 帮助中心 > 数据治理中心 DataArts Studio > 用户指南 > 数据集成（CDM作业） > 在CDM集群中创建作业 > 配置CDM作业源端参数

总条数： 1186

上一页
1
...
46
47
48
...
60
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

开发一个DLI Spark作业 - 数据治理中心 DataArts Studio

开发一个MRS Spark Python作业 - 数据治理中心 DataArts Studio

（可选）修改作业日志存储路径 - 数据治理中心 DataArts Studio

（可选）修改作业日志存储路径 - 数据治理中心 DataArts Studio

OBS导入数据到SQL Server时出现Unable to execute the SQL statement怎么处理？ - 数据治理中心 DataArts Studio

查询业务资产 - 数据治理中心 DataArts Studio

参考：作业分片维度 - 数据治理中心 DataArts Studio

新建复合指标 - 数据治理中心 DataArts Studio

PostgreSQL与DWS字段类型映射 - 数据治理中心 DataArts Studio

（可选）购买DataArts Studio功能增量包 - 数据治理中心 DataArts Studio

查看并修改CDM集群配置 - 数据治理中心 DataArts Studio

PostgreSQL数据源如何手动删除复制槽？ - 数据治理中心 DataArts Studio

时间宏变量使用解析 - 数据治理中心 DataArts Studio

什么是数据血缘关系？ - 数据治理中心 DataArts Studio

编排API简介 - 数据治理中心 DataArts Studio

新建时间限定 - 数据治理中心 DataArts Studio

目的 - 数据治理中心 DataArts Studio

运行历史 - 数据治理中心 DataArts Studio

购买批量数据迁移增量包 - 数据治理中心 DataArts Studio

配置FTP/SFTP源端参数 - 数据治理中心 DataArts Studio

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线