检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
正则表达式分隔半结构化文本 在创建表/文件迁移作业时,对简单CSV格式的文件,CDM可以使用字段分隔符进行字段分隔。但是对于一些复杂的半结构化文本,由于字段值也包含了分隔符,所以无法使用分隔符进行字段分隔,此时可以使用正则表达式分隔。 正则表达式参数在源端作业参数中配置,要求源连
新增字段操作指导 操作场景 作业参数配置完成后,将进行字段映射的配置,您可以通过字段映射界面的可自定义新增字段。 如果是文件类数据源(FTP/SFTP/HDFS/OBS)之间相互迁移数据,且源端“文件格式”配置为“二进制格式”(即不解析文件内容直接传输),则没有字段映射这一步骤。
新增字段操作指导 操作场景 作业参数配置完成后,将进行字段映射的配置,您可以通过字段映射界面的可自定义新增字段。 如果是文件类数据源(FTP/SFTP/HDFS/OBS)之间相互迁移数据,且源端“文件格式”配置为“二进制格式”(即不解析文件内容直接传输),则没有字段映射这一步骤。
正则表达式分隔半结构化文本 在创建表/文件迁移作业时,对简单CSV格式的文件,CDM可以使用字段分隔符进行字段分隔。但是对于一些复杂的半结构化文本,由于字段值也包含了分隔符,所以无法使用分隔符进行字段分隔,此时可以使用正则表达式分隔。 正则表达式参数在源端作业参数中配置,要求源连
CDM迁移近一个月的数据 备HBase集群中约10TB数据,最近一个月新增的数据量约60TB,总共约70TB。H公司安装的云专线为20GE端口,支持CDM超大规格的集群(cdm.xlarge),综合考虑迁移时间、成本、性能等,这里使用2个CDM超大规格集群并行迁移。CDM集群规格如表1所示。
终端节点Endpoint 获取终端节点 终端节点(Endpoint)即调用API的请求地址,不同服务不同区域的终端节点不同。 数据治理中心的终端节点Endpoint构造规则如下,请您根据业务需要选择对应区域的终端节点。 CDM数据集成接口:cdm.{region_id}.myhuaweicloud
配置API调用流控策略 操作场景 DataArts Studio数据服务的API流量控制基于指定规则对API的访问流量进行调节控制的限流策略,能够提供多种维度的后端服务保护功能。当前API流控支持通过用户、应用和时间段等不同维度限制API的调用次数。 为了提供持续稳定的服务,您需
构造请求 本节介绍REST API请求的组成,并以调用IAM服务的管理员创建IAM用户接口为例说明如何调用API。该API用于管理员创建IAM用户。 您还可以通过这个视频教程了解如何构造请求调用API:https://bbs.huaweicloud.com/videos/102987
贸易数据上云场景介绍 使用云数据迁移(Cloud Data Migration,简称CDM)将本地贸易统计数据导入到OBS,再使用数据湖探索(Data Lake Insight,简称DLI)进行贸易统计分析,帮助H咨询公司以极简、极低成本构建其大数据分析平台,使得该公司更好地聚焦业务,持续创新。
SQLServer到MRS Hudi参数调优 源端优化 SQLServer抽取优化 暂无优化配置项。 目的端优化 Hudi写入优化 Hudi表写入性能慢,优先审视表设计是否合理,建议使用Hudi Bucket索引的MOR表,并根据实际数据量配置Bucket桶数,以达到Migration写入性能最佳。
Oracle到MRS Hudi参数调优 源端优化 Oracle抽取优化 暂无优化配置项。 目的端优化 Hudi写入优化 Hudi表写入性能慢,优先审视表设计是否合理,建议使用Hudi Bucket索引的MOR表,并根据实际数据量配置Bucket桶数,以达到Migration写入性能最佳。
审批中心 对于简单模式工作空间,当前支持开发者在提交脚本和作业时,由指定审核人进行审批。审批中心可以对单据审批进行统一管理,对审批人进行工作空间级的配置和维护。 约束与限制 仅当前工作空间的管理员或者拥有DAYU Administrator、Tenant Administrato
管理资源 用户可以通过资源管理功能,上传自定义代码或文本文件作为资源,在节点运行时调用。可调用资源的节点包含DLI Spark、MRS Spark、MRS MapReduce和DLI Flink Job。 创建资源后,配置资源关联的文件。在作业中可以直接引用资源。当资源文件变更,
上传CDM连接驱动 JDBC即Java DataBase Connectivity,java数据库连接;JDBC提供的API可以让JAVA通过API方式访问关系型数据库,执行SQL语句,获取数据。 CDM连接关系数据库前,需要先上传所需关系数据库的JDK8版本.jar格式驱动。 前提条件
查看作业实例 作业实例的数据保留最近90天的结果。 界面说明 介绍“数据质量监控 > 运维管理”页面中的区域和按键功能。 图1 页面区域说明 表1 运维管理页面 序号 区域 描述 1 导航栏 左侧导航栏,包括数据质量规则的存储目录。 用户可以根据实际需要对规则进行分目录存放,每级
数据架构使用流程 DataArts Studio数据架构的流程如下: 图1 数据架构流程 准备工作: 添加审核人:在数据架构中,业务流程中的步骤都需要经过审批,因此,需要先添加审核人。只有工作空间管理员角色的用户才具有添加审核人的权限。 管理配置中心:数据架构中提供了丰富的自定义
配置MySql源端参数 支持从MySQL导出数据。 表1 MySQL作为源端时的作业参数 参数类型 参数名 说明 取值样例 基本参数 使用SQL语句 导出关系型数据库的数据时,您可以选择使用自定义SQL语句导出。 否 SQL语句 “使用SQL语句”选择“是”时,您可以在这里输入自
配置PostgreSQL源端参数 支持从云端的数据库服务导出数据。 这些非云服务的数据库,既可以是用户在本地数据中心自建的数据库,也可以是用户在ECS上部署的,还可以是第三方云上的数据库服务。 表1 PostgreSQL作为源端时的作业参数 参数类型 参数名 说明 取值样例 基本参数
配置Oracle源端参数 支持从Oracle导出数据。 表1 Oracle作为源端时的作业参数 参数类型 参数名 说明 取值样例 基本参数 使用SQL语句 导出关系型数据库的数据时,您可以选择使用自定义SQL语句导出。 否 SQL语句 “使用SQL语句”选择“是”时,您可以在这里
编排API简介 数据服务API编排是指将已经开发好的服务API接口,在无需编写复杂代码的情况下,根据特定的业务逻辑和流程进行可视化的重组和重构,从而实现在不影响原生接口的前提下进行简便的二次开发。API编排为您提供拖拽式、可视化的API工作流程编排能力,您可以按照业务逻辑,以串行