搜索_华为云

配置OBS源端参数 - 数据治理中心 DataArts Studio

PARQUET格式：以PARQUET格式解析源文件，一般都是用于迁移文件到数据表的场景。二进制格式：选择“二进制格式”时不解析文件内容直接传输，不要求文件格式必须为二进制。适用于文件迁移场景，比如OBS到OBS。 CSV格式源目录或文件待迁移数据的目录或单个文件路径。文件路径支持输入多个文件（最多50个）

帮助中心 > 数据治理中心 DataArts Studio > 用户指南 > 数据集成（离线作业） > 配置作业源端参数
配置OBS桶 - 数据治理中心 DataArts Studio

如果未配置测试运行历史OBS桶，则无法查看历史运行的详细信息。请参考本节操作配置OBS桶。约束限制 OBS路径仅支持OBS桶，不支持并行文件系统。配置方法参考访问DataArts Studio实例控制台，登录DataArts Studio管理控制台。在DataArts S

帮助中心 > 数据治理中心 DataArts Studio > 用户指南 > 数据开发 > 配置管理 > 配置
配置HDFS源端参数 - 数据治理中心 DataArts Studio

Parquet格式：以Parquet格式解析源文件，用于HDFS数据导到表的场景。 CSV格式列表文件当“文件格式”选择为“二进制格式”时，才有该参数。打开列表文件功能时，支持读取OBS桶中文件（如txt文件）的内容作为待迁移文件的列表。该文件中的内容应为待迁移文件的绝对路径（不支持目录），文件内容示例如下：

帮助中心 > 数据治理中心 DataArts Studio > 用户指南 > 数据集成（离线作业） > 配置作业源端参数
配置HDFS源端参数 - 数据治理中心 DataArts Studio

Parquet格式：以Parquet格式解析源文件，用于HDFS数据导到表的场景。 CSV格式列表文件当“文件格式”选择为“二进制格式”时，才有该参数。打开列表文件功能时，支持读取OBS桶中文件（如txt文件）的内容作为待迁移文件的列表。该文件中的内容应为待迁移文件的绝对路径（不支持目录），文件内容示例如下：

帮助中心 > 数据治理中心 DataArts Studio > 用户指南 > 数据集成（CDM作业） > 在CDM集群中创建作业 > 配置CDM作业源端参数
配置FTP/SFTP源端参数 - 数据治理中心 DataArts Studio

需要解压缩的文件的后缀名。当一批文件中以该值为后缀时，才会执行解压缩操作，否则就保持原样传输。当输入"*"时或输入为空时，所有文件都会被解压。 tar.gz 文件分隔符多文件列表时指定的文件分隔符。 | 启动作业标识文件当源端路径下存在启动作业的标识文件时才启动任务，否则会挂起等待一段时间。

帮助中心 > 数据治理中心 DataArts Studio > 用户指南 > 数据集成（离线作业） > 配置作业源端参数
For Each节点使用介绍 - 数据治理中心 DataArts Studio

您可以将表1数据保存在OBS的CSV文件中，然后通过DLI SQL或DWS SQL创建OBS外表关联这个CSV文件，然后将OBS外表查询的结果作为数据集。DLI创建外表请参见OBS输入流，DWS创建外表请参见创建外表。您可以将表1数据保存在HDFS的CSV文件中，然后通过HIVE SQL

帮助中心 > 数据治理中心 DataArts Studio > 用户指南 > 数据开发 > 使用教程
MRS Ranger数据连接参数说明 - 数据治理中心 DataArts Studio

还需要添加对应组件的用户组权限。 MRS 3.1.0版本之前的集群，所创建的用户需要具备Manager_administrator或System_administrator权限，才能在管理中心创建连接。仅具备Manager_tenant或Manager_auditor权限，无法创建连接。

帮助中心 > 数据治理中心 DataArts Studio > 用户指南 > 管理中心 > 配置DataArts Studio数据连接参数
步骤1：数据准备 - 数据治理中心 DataArts Studio

单击“文件 > 另存为”，在弹出的对话框中，“保存类型”选择为“所有文件(*.*)”，在“文件名”处输入文件名和.csv后缀，选择“UTF-8”编码格式（不能带BOM），则能以CSV格式保存该文件。将源数据CSV文件上传到OBS服务。登录控制台，选择“存储 > 对象存储服务 OBS”，进入OBS控制台。

帮助中心 > 数据治理中心 DataArts Studio > 快速入门 > 初级版：基于DWS的电影评分数据集成与开发流程
数据集市 - 数据治理中心 DataArts Studio

行存储到硬盘分区上。 DWS_COLUMN：列存表。列存储是指将表按列存储到硬盘分区上。 DWS_VIEW：视图存表。视图存储是指将表按视图存储到硬盘分区上。 MRS_HIVE模型支持HIVE_TABLE和HIVE_EXTERNAL_TABLE。 MRS_SPARK模型支持HUDI_COW和HUDI_MOR。

帮助中心 > 数据治理中心 DataArts Studio > 用户指南 > 数据架构 > 模型设计
For Each节点使用介绍 - 数据治理中心 DataArts Studio

您可以将表1数据保存在OBS的CSV文件中，然后通过DLI SQL或DWS SQL创建OBS外表关联这个CSV文件，然后将OBS外表查询的结果作为数据集。DLI创建外表请参见OBS输入流，DWS创建外表请参见创建外表。您可以将表1数据保存在HDFS的CSV文件中，然后通过HIVE SQL

帮助中心 > 数据治理中心 DataArts Studio > 最佳实践 > 数据开发进阶实践
开发一个MRS Spark Python作业 - 数据治理中心 DataArts Studio

txt”，内容为一段英文单词。操作步骤：将脚本和数据文件传入OBS桶中，如下图。图1 上传文件至OBS桶本例中，wordcount.py和in.txt文件上传路径为：obs://obs-tongji/python/ 创建一个数据开发模块空作业，作业名称为“job_MRS_Spark_Python”。

帮助中心 > 数据治理中心 DataArts Studio > 用户指南 > 数据开发 > 使用教程
目的端为OBS - 数据治理中心 DataArts Studio

源端为数据库时该参数有效，支持按大小分成多个文件存储，避免导出的文件过大，单位为MB。 toJobConfig.duplicateFileOpType 否枚举重复文件处理方式，只有文件名和文件大小都相同才会判定为重复文件。重复文件支持以下处理方式： REPLACE：替换重复文件。 SKIP：跳过重复文件。 ABANDON：发现重复文件停止任务。

帮助中心 > 数据治理中心 DataArts Studio > API参考 > 数据集成API > 附：公共数据结构 > 目的端作业参数说明
目的端为HDFS - 数据治理中心 DataArts Studio

枚举写入数据时所用的文件格式（二进制除外），支持以下文件格式： CSV_FILE：按照CSV格式写入数据。 BINARY_FILE：二进制格式，不解析文件内容直接传输，CDM会原样写入文件，不改变原始文件格式。当选择“BINARY_FILE”时，源端也必须为文件系统。 toJobConfig

帮助中心 > 数据治理中心 DataArts Studio > API参考 > 数据集成API > 附：公共数据结构 > 目的端作业参数说明
新建数据对账作业 - 数据治理中心 DataArts Studio

覆盖：如果对账作业名称有重复，会覆盖现有同名作业。如果选择覆盖，请在导入文件前，停止所有作业调度，否则调度中的作业会导致上传文件失败。单击“上传文件”，选择准备好的数据文件。可通过如下两种方式填写数据文件： (推荐使用) 通过“导出”功能，可将数据直接/或修改后批量导入系统。

帮助中心 > 数据治理中心 DataArts Studio > 用户指南 > 数据质量 > 数据质量监控
OBSUtil内嵌对象 - 数据治理中心 DataArts Studio

OBSUtil内嵌对象提供了一系列针对OBS的操作方法，例如判断OBS文件或目录是否存在。方法表1 方法说明方法说明示例 boolean isExistOBSPath(String obsPath) 判断OBS文件或目录（目录请以“/”结尾）是否存在，存在返回true，不存在返回false。

帮助中心 > 数据治理中心 DataArts Studio > 用户指南 > 数据开发 > EL表达式参考
分析数据 - 数据治理中心 DataArts Studio

分析数据通过DLI直接对OBS数据进行贸易统计分析。前提条件 DLI创建OBS外表，对OBS表数据存储格式有所要求：使用DataSource语法创建OBS表时，支持orc，parquet，json，csv，carbon，avro类型。使用Hive语法创建OBS表时，支持TEXTFILE

帮助中心 > 数据治理中心 DataArts Studio > 最佳实践 > 贸易数据极简上云与统计分析
创建表模型 - 数据治理中心 DataArts Studio

variables CLOUD_SDK_AK and CLOUD_SDK_SK in the local environment String ak = System.getenv("CLOUD_SDK_AK"); String sk = System.get

帮助中心 > 数据治理中心 DataArts Studio > API参考 > 数据架构API > 关系建模接口
查看维度颗粒度 - 数据治理中心 DataArts Studio

variables CLOUD_SDK_AK and CLOUD_SDK_SK in the local environment String ak = System.getenv("CLOUD_SDK_AK"); String sk = System.get

帮助中心 > 数据治理中心 DataArts Studio > API参考 > 数据架构API > 维度接口
导出作业 - 数据治理中心 DataArts Studio

响应消息的Content-Type是application/octet-stream，需要解析转化为一个文件，可以参考解析响应消息体中的流样例代码。响应是一个压缩文件，文件名称格式DLF_{job_name}.zip，压缩文件里面的文件目录如下： jobs ├─{job_name}.job scripts ├─{script_name}

帮助中心 > 数据治理中心 DataArts Studio > API参考 > 数据开发API（V1） > 作业开发API
数据集成配置数据搬迁 - 数据治理中心 DataArts Studio

集群“操作”列的“作业管理”，进入到“表/文件迁移”界面。单击作业列表上方的“导入”按钮，准备导入JSON文件。图3 批量导入在弹出的窗口中，选择导出作业获取的JSON文件，上传JSON文件。图4 选择JSON文件 JSON文件上传成功后，单击“设置密码”，配置数据连接的密码或SK。

帮助中心 > 数据治理中心 DataArts Studio > 最佳实践 > DataArts Studio配置数据搬迁实践

总条数： 828

上一页
1
...
28
29
30
...
42
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

配置OBS源端参数 - 数据治理中心 DataArts Studio

配置OBS桶 - 数据治理中心 DataArts Studio

配置HDFS源端参数 - 数据治理中心 DataArts Studio

配置HDFS源端参数 - 数据治理中心 DataArts Studio

配置FTP/SFTP源端参数 - 数据治理中心 DataArts Studio

For Each节点使用介绍 - 数据治理中心 DataArts Studio

MRS Ranger数据连接参数说明 - 数据治理中心 DataArts Studio

步骤1：数据准备 - 数据治理中心 DataArts Studio

数据集市 - 数据治理中心 DataArts Studio

For Each节点使用介绍 - 数据治理中心 DataArts Studio

开发一个MRS Spark Python作业 - 数据治理中心 DataArts Studio

目的端为OBS - 数据治理中心 DataArts Studio

目的端为HDFS - 数据治理中心 DataArts Studio

新建数据对账作业 - 数据治理中心 DataArts Studio

OBSUtil内嵌对象 - 数据治理中心 DataArts Studio

分析数据 - 数据治理中心 DataArts Studio

创建表模型 - 数据治理中心 DataArts Studio

查看维度颗粒度 - 数据治理中心 DataArts Studio

导出作业 - 数据治理中心 DataArts Studio

数据集成配置数据搬迁 - 数据治理中心 DataArts Studio

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线