检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
来创建新的预定义标签,具体请参见《标签管理服务用户指南》中的“创建预定义标签”章节。 另外,DataArts Studio实例最多支持添加20个标签,标签的键名不能重复,一个“标签键”只能添加一个对应“标签值”。 查看当前配置,确认无误后单击“立即购买”。 单击“提交订单”,付款
调度周期选择“分钟”时,系统不支持按照配置的时间间隔固定频率去运行,即不支持跨小时按照固定频率去运行。举例如下: 2024年6月19日14点20分配置了分钟调度,开始时间为0时30分,间隔时间为30分钟,结束时间为23时59分,则实际作业运行时间周期为2024-06-19 14:30:00、2024-06-19
Hudi是一种数据湖的存储格式,在Hadoop文件系统之上提供了更新数据和删除数据的能力以及消费变化数据的能力。支持多种计算引擎,提供IUD接口,在HDFS的数据集上提供了插入更新和增量拉取的流原语。 Hudi的元数据存放在Hive中,操作通过Spark进行。 MapReduce服务(MRS
导入”按钮,在弹出的导入窗口中,选择并上传需要导入的码表文件。 图19 导入码表 上传文件后系统开始自动导入,导入成功后系统会显示导入的情况。 图20 导入码表成功 导入成功后,请单击“发布”,使其处于“已发布”状态。 导入数据标准 在数据架构主界面,单击左侧导航栏的“数据标准”,进入数据标准页面。
SQL作业/脚本默认模板配置 Spark SQL作业/脚本配置运行时,通过默认参数模板去管控是否允许用户去设置任意参数覆盖模板设置的默认参数。 在MRS API连接方式下,Spark SQL脚本支持配置默认运行参数。代理连接不支持。 在数据开发主界面的左侧导航栏,选择“配置管理 > 配置”。 单击“默认项设置”,可设置“Spark
Service,简称DES)是一种海量数据传输解决方案,支持TB到PB级数据上云,通过Teleport设备或硬盘(外置USB接口、SATA接口、SAS接口类型)向华为云传输大量数据,致力于解决海量数据传输网络成本高、传输时间长等难题。更多详情请参见数据快递服务。 各个数据迁移服务区别
用于分隔文件中的行的字符,支持单字符和多字符,也支持特殊字符。特殊字符可以使用URL编码输入,例如: 表1 特殊字符对应的URL编码 特殊字符 URL编码 空格 %20 Tab %09 % %25 回车 %0d 换行 %0a 标题开头\u0001 (SOH) %01 字段分隔符 用于分隔CSV文件中的列的
用于分隔文件中的行的字符,支持单字符和多字符,也支持特殊字符。特殊字符可以使用URL编码输入,例如: 表1 特殊字符对应的URL编码 特殊字符 URL编码 空格 %20 Tab %09 % %25 回车 %0d 换行 %0a 标题开头\u0001 (SOH) %01 字段分隔符 用于分隔CSV文件中的列的
新增字段操作指导 操作场景 作业参数配置完成后,将进行字段映射的配置,您可以通过字段映射界面的可自定义新增字段。 如果是文件类数据源(FTP/SFTP/HDFS/OBS)之间相互迁移数据,且源端“文件格式”配置为“二进制格式”(即不解析文件内容直接传输),则没有字段映射这一步骤。
数据开发概述 数据开发是一个一站式的大数据协同开发平台,提供全托管的大数据调度能力。它可管理多种大数据服务,极大降低用户使用大数据的门槛,帮助您快速构建大数据处理中心。 数据开发模块曾被称为数据湖工厂(Data Lake Factory,后简称DLF)服务,因此在本文中,“数据湖
新增字段操作指导 操作场景 作业参数配置完成后,将进行字段映射的配置,您可以通过字段映射界面的可自定义新增字段。 如果是文件类数据源(FTP/SFTP/HDFS/OBS)之间相互迁移数据,且源端“文件格式”配置为“二进制格式”(即不解析文件内容直接传输),则没有字段映射这一步骤。
新增字段操作指导 操作场景 作业参数配置完成后,将进行字段映射的配置,您可以通过字段映射界面的可自定义新增字段。 如果是文件类数据源(FTP/SFTP/HDFS/OBS)之间相互迁移数据,且源端“文件格式”配置为“二进制格式”(即不解析文件内容直接传输),则没有字段映射这一步骤。
生成后妥善保管。 - 密钥(SK) - OBS测试路径 “OBS支持”设置为“是”时,呈现此参数。 请填写完整的文件路径,将调用元数据查询接口来校验路径的访问权限。 说明: 如果是对象存储,路径需要填写到对象级别,否则会报错404,例如:“obs://bucket/dir/test
单击编辑器右侧的“脚本基本信息”,可设置脚本的责任人和描述信息。 企业模式下,支持从脚本开发界面快速前往发布。标放置在上,单击“前往发布”,进入待发布任务界面。 在MRS API连接方式下,Spark SQL和HIve SQL脚本支持配置指定参数和参数值。代理连接不支持。 单击右上角的,设置相关脚本的环境变量。举例如下所示:
数据治理模块域 数据治理主要专注于如下模块域: 数据集成 数据集成用来完成数据入湖动作,不是简单的数据搬家,而是按照一定的方法论进行数据备份。数据入湖的前提条件是满足6项数据标准,包括:明确数据Owner、发布数据标准、定义数据密级、明确数据源、数据质量评估、元数据注册。此标准由
“标签”,进入后添加标签,单击“确定”,完成逻辑实体的标签设置。 输入文字并回车可临时添加标签,整页信息提交后才可新建标签。标签最多可添加20个。 逻辑实体可以通过标签过滤进行模糊查询。 编辑 在逻辑实体列表中,选择需要编辑的逻辑实体,单击“操作”列的“编辑”,进入编辑页面进行编
archive.max_commits int 50 次 触发归档动作的commit数。 建议配置成archive.min_commits + 20。 说明: 例如配置成101,那么将在生成101个commit文件后触发归档commit文件动作。 为了达到Migration作业性能最优,建议使用Hudi
archive.max_commits int 50 次 触发归档动作的commit数。建议配置成archive.min_commits + 20。 说明: 例如配置成101,那么将在生成101个commit文件后触发归档commit文件动作。 为了达到Migration作业性能最优,建议使用Hudi
archive.max_commits int 50 次 触发归档动作的commit数。建议配置成archive.min_commits + 20。 说明: 例如配置成101,那么将在生成101个commit文件后触发归档commit文件动作。 为了达到Migration作业性能最优,建议使用Hudi
的“标签”,进入后添加标签,单击“确定”,完成物理表的标签设置。 输入文字并回车可临时添加标签,整页信息提交后才可新建标签。标签最多可添加20个。 物理表可以通过标签过滤进行模糊查询。 导入 导入EXCEL 在物理表列表中,单击列表上方的“导入”,选择“导入EXCEL”,进入导入