检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
Content-Type 是 String 消息体的类型(格式),有Body体的情况下必选,没有Body体无需填写。如果请求消息体中含有中文字符,则需要通过charset=utf8指定中文字符集,例如取值为:application/json;charset=utf8。 响应参数 状态码: 200
维度表数据量一般整表数据规模较小,以更新数据为主,新增较少,表数据量比较稳定,且读取时通常需要全量读取做join之类的ETL计算,因此通常使用非分区表性能更好。 确认表内桶数。 使用Hudi BUCKET表时需要设置Bucket桶数,桶数设置关系到表的性能,需要格外引起注意。 非分区表桶数 = MAX(单表数据量大小(G)/2G*2,再向上取整,4)。
说明 workspace 否 String 工作空间id。 如果不设置该参数,默认查询default工作空间下的数据。 如果需要查询其他工作空间的数据,需要带上该消息头。 响应参数 参数名 是否必选 参数类型 说明 total 是 Integer 总的脚本个数。 scripts 是
本入门示例以某电商商城的BI报表数据为例,分析用户和商品的各种数据特征。 为方便演示,本示例提供了用于模拟原始数据的部分数据。为了方便将源数据集成到云上,我们需要先将样例数据存储为CSV文件,将CSV文件上传至OBS服务中。 创建CSV文件(UTF-8无bom格式),文件名称为对应的数据表名,将后文
源端为关系数据库 源端为对象存储 源端为HDFS 源端为Hive 源端为HBase/CloudTable 源端为FTP/SFTP 源端为HTTP/HTTPS 源端为MongoDB/DDS 源端为Redis 源端为DIS 源端为Kafka 源端为Elasticsearch/云搜索服务 父主题:
进入数据目录页面。 选择“数据地图 > 数据目录”,并进入“技术资产”页签。 在资产搜索输入框输入需要添加标签的数据的关键字,然后单击“搜索”,搜索结果以列表方式显示。 勾选需要添加标签的资产,单击右上角“标识”。在添加标识对话框中配置标签。 图1 添加标识 选择标识种类为标签,并配置标签,单击“确定”提交。
zip。 workspace 否 String 工作空间id。 如果不设置该参数,默认查询default工作空间下的数据。 如果需要查询其他工作空间的数据,需要带上该消息头。 响应参数 表3 参数说明 参数名 是否必选 参数类型 说明 jobs 否 List<Job> 作业信息,参考表4
页面。 在数据开发主界面的左侧导航栏,选择“数据开发 > 脚本开发”。 单击脚本目录中的,选择“显示复选框”。 图1 显示脚本复选框 勾选需要解锁的脚本,单击 > 批量解锁。弹出“解锁成功”提示。 图2 批量解锁 父主题: (可选)管理脚本
获取SQL节点的输出结果值 IF条件判断教程 获取Rest Client节点返回值教程 For Each节点使用介绍 数据开发调用数据质量算子并且作业运行的时候需要传入质量参数 跨空间进行作业调度 使用Python脚本连接MRS安全集群执行Impala SQL 天任务依赖分钟任务 Flink Jar作业开发指导
发”模块,进入数据开发页面。 在数据开发主界面的左侧导航栏,选择“数据开发 > 作业开发”。 单击作业目录中的,选择“显示复选框”。 勾选需要解锁的作业,单击 > 批量解锁。弹出“解锁成功”提示。 图1 批量解锁 父主题: (可选)管理作业
DLI作为源端时的作业参数 参数名 说明 取值样例 资源队列 选择目的表所属的资源队列。 DLI的default队列无法在迁移作业中使用,您需要在DLI中新建SQL队列。 cdm 数据库名称 写入数据的数据库名称。 dli 表名 写入数据的表名。 car_detail 分区 用于抽
说明 workspace 否 String 工作空间id。 如果不设置该参数,默认查询default工作空间下的数据。 如果需要查询其他工作空间的数据,需要带上该消息头。 响应参数 表3 Script参数说明 参数名 是否必选 参数类型 说明 name 是 String 脚本名称
系。如需更新,需要等待冷却期结束或将数据开发作业再次提交版本后调度。 数据血缘关系删除需要通过删除作业或删除作业元数据的方式进行,仅将作业停止调度不会触发血缘关系的删除。 新建并运行元数据采集任务 请参见配置元数据采集任务,新建并运行元数据采集任务,注意任务中需要选择待查看血缘关系的数据表。
BINARY_FILE:二进制格式。 当选择“BINARY_FILE”时,目的端也必须为文件系统。 fromJobConfig.columnList 否 String 需要抽取的列号,列号之间使用“&”分割,并由小到大排序,例如:“1&3&5”。 fromJobConfig.lineSeparator 否 String
说明 workspace 否 String 工作空间id。 如果不设置该参数,默认查询default工作空间下的数据。 如果需要查询其他工作空间的数据,需要带上该消息头。 X-Auth-Token 是 String IAM Token 最小长度:0 最大长度:4096 Content-Type
columnAsKey:指定写入数据key值,也可以通过指定字段值作为key,通过配置@{column1}--@{column2}。 例如:目的端字段为id、name,需要使用这两个字段值,则配置成@{id}--@{name}。 schema:该参数会显示在写入的数据的消息体中,此处配置该参数时后续显示为设置
表1 DataArts Studio数据治理流程 主流程 说明 子任务 操作指导 步骤1:流程设计 在使用DataArts Studio前,您需要进行业务调研和需求分析设计。 需求分析、业务调研与业务流程设计 需求分析 业务调研 步骤2:数据准备 如果您是第一次使用DataArts
系。如需更新,需要等待冷却期结束或将数据开发作业再次提交版本后调度。 数据血缘关系删除需要通过删除作业或删除作业元数据的方式进行,仅将作业停止调度不会触发血缘关系的删除。 新建并运行元数据采集任务 请参见配置元数据采集任务,新建并运行元数据采集任务,注意任务中需要选择待查看血缘关系的数据表。
Compaction的Spark周期任务? MySQL到DWS实时同步中,同步新增列的DDL时报错怎么办? MySQL到DWS实时同步中,DWS为什么需要对主键null值进行过滤? Kafka到DLI实时同步中,作业运行失败,报“Array element access needs an index
查看溯源结果:在数据水印溯源页面,找到需要查看溯源结果的任务,单击对应任务操作栏中的“查看结果”,即可查看溯源结果。注意,只有溯源成功的任务才会显示溯源信息。 图3 溯源信息 删除任务:在数据水印溯源页面,单击对应任务操作栏中的“删除”,即可删除任务。当需要批量删除时,可以在勾选任务后,在任务列表上方单击“批量删除”。