检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
修改组合识别规则 功能介绍 修改组合识别规则 调用方法 请参见如何调用API。 URI PUT /v1/{project_id}/security/data-classification/rule/combine/{id} 表1 路径参数 参数 是否必选 参数类型 描述 project_id
For Each节点使用介绍 适用场景 当您进行作业开发时,如果某些任务的参数有差异、但处理逻辑全部一致,在这种情况下您可以通过For Each节点避免重复开发作业。 For Each节点可指定一个子作业循环执行,并通过数据集对子作业中的参数进行循环替换。关键参数如下: 子作业:选择需要循环执行的作业
新建表/文件迁移作业 操作场景 CDM可以实现在同构、异构数据源之间进行表或文件级别的数据迁移,支持表/文件迁移的数据源请参见支持的数据源。 约束限制 记录脏数据功能依赖于OBS服务。 作业导入时,JSON文件大小不超过1MB。 单文件传输大小不超过1TB。 配置源端和目的端参数时
For Each节点使用介绍 适用场景 当您进行作业开发时,如果某些任务的参数有差异、但处理逻辑全部一致,在这种情况下您可以通过For Each节点避免重复开发作业。 For Each节点可指定一个子作业循环执行,并通过数据集对子作业中的参数进行循环替换。关键参数如下: 子作业:选择需要循环执行的作业
Oracle到DWS参数调优 源端优化 Oracle抽取优化 暂无优化配置项。 目的端优化 DWS写入优化 可通过在DWS的目的端配置中修改写入相关配置,且可以通过单击高级配置的“查看编辑”按钮,添加高级属性。 图1 添加高级属性 表1 DWS写入优化参数 参数名 类型 默认值 说明
创建IAM用户并授予DataArts Studio权限 如果您需要对您所拥有的DataArts Studio进行精细的权限管理,您可以使用统一身份认证服务(Identity and Access Management,简称IAM)。通过IAM,您可以: 根据企业的业务组织,在您的华为账号中
Rest Client 功能 通过Rest Client节点执行一个华为云内的RESTful请求。 Rest Client算子的具体使用教程,请参见获取Rest Client算子返回值教程。 当由于网络限制,Rest Client某些API无法调通时,可以尝试使用Shell脚本进行
配置DWS源端参数 作业中源连接为DWS连接时,源端作业参数如表1所示。 表1 DWS作为源端时的作业参数 参数类型 参数名 说明 取值样例 基本参数 使用SQL语句 导出关系型数据库的数据时,您可以选择使用自定义SQL语句导出。 否 SQL语句 “使用SQL语句”选择“是”时,您可以在这里输入自定义的
开发一个DWS SQL作业 介绍如何在数据开发模块上通过DWS SQL节点进行作业开发。 场景说明 本教程通过开发一个DWS作业来统计某门店的前一天销售额。 环境准备 已开通DWS服务,并创建DWS集群,为DWS SQL提供运行环境。 已开通CDM增量包,并创建CDM集群。 CDM
MySQL到DWS参数调优 源端优化 MySQL抽取优化 可通过在作业任务配置参数单击中“添加自定义属性”来新增MySQL同步参数。 图1 添加自定义属性 可使用的调优参数具体如下: 表1 全量阶段优化参数 参数名 类型 默认值 说明 scan.incremental.snapshot.backfill.skip
步骤2:数据开发处理 本步骤通过BI报表原始数据,分析10大用户关注最多的产品和10大用户评价最差的商品,然后通过作业定期调度执行并将结果每日导出到表中,以支撑信息分析。 分析10大用户关注最多的产品 在DataArts Studio控制台首页,选择对应工作空间的“数据开发”模块,
补数据场景使用介绍 适用场景 在某项目搬迁场景下,当您需要补充以前时间段内的历史业务数据,需要查看历史数据的详细信息时,可以使用补数据特性。 补数据是指作业执行一个调度任务,在过去某一段时间里生成一系列的实例。用户可以通过补数据,修正历史中出现数据错误的作业实例,或者构建更多的作业记录以便调试程序等
配置Hudi目的端参数 表1 MRS Hudi作为目的端时的作业参数 类别 配置项 配置说明 推荐配置 基本参数 数据库名称 输入或选择写入数据的数据库名称。单击输入框后面的按钮可进入数据库选择界面。 dbadmin 表名 单击输入框后面的按钮可进入表的选择界面。 该参数支持配置为时间宏变量
补数据场景使用介绍 适用场景 在某项目搬迁场景下,当您需要补充以前时间段内的历史业务数据,需要查看历史数据的详细信息时,可以使用补数据特性。 补数据是指作业执行一个调度任务,在过去某一段时间里生成一系列的实例。用户可以通过补数据,修正历史中出现数据错误的作业实例,或者构建更多的作业记录以便调试程序等
配置Oracle源端参数 作业中源连接为Oracle数据库连接,源端作业参数如表1所示。 表1 Oracle作为源端时的作业参数 参数名 说明 取值样例 使用SQL语句 导出关系型数据库的数据时,您可以选择使用自定义SQL语句导出。 否 SQL语句 “使用SQL语句”选择“是”时,
配置连接参数 OBS连接参数说明 PostgreSQL/SQLServer连接参数说明 数据仓库服务(DWS)连接参数说明 云数据库MySQL/MySQL数据库连接参数说明 Oracle数据库连接参数说明 DLI连接参数说明 Hive连接参数说明 HBase连接参数说明 HDFS连接参数说明
目的端为HBase/CloudTable JSON样例 "to-config-values": { "configs": [ { "inputs": [ { "name
统一权限治理 权限治理使用流程 授权dlg_agency委托 检查集群版本与权限 同步IAM用户到数据源 数据权限访问控制 服务资源访问控制 Ranger权限访问控制 父主题: 数据安全
配置队列权限 本章介绍如何通过队列权限管理,为当前工作空间分配可使用的MRS Yarn和DLI队列资源,并为用户组/用户配置对应的队列权限策略。 当前队列分配和队列权限管控均为白名单机制。即如果未分配队列,则无法选择队列;如果队列未对用户授权,则用户无法使用队列。 当为工作空间分配队列资源后
约束与限制 CDM系统级限制和约束 DataArts Studio实例赠送的数据集成集群,由于规格限制,仅用于测试业务、数据连接代理场景。 用于运行数据迁移作业的其他规格CDM集群可以在DataArts Studio控制台以增量包的形式购买,也可以在云数据迁移CDM服务控制台直接购买