检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
OBS上存储脏数据的目录,只有在配置了脏数据目录的情况下才会记录脏数据。 用户可以进入脏数据目录,查看作业执行过程中处理失败的数据或者被清洗过滤掉的数据,针对该数据可以查看源数据中哪些数据不符合转换、清洗规则。
待作业测试运行成功后,在Kafka Client节点上右键查看日志,可以发现MRS Hive SQL节点返回的二维数组[["2"]]已被清洗为2。
导入API并发布到当前空间所有集群:导入API,并发布到当前工作空间的所有集群上。如果没有集群,则不发布只导入。 是否覆盖 配置导入的重名API是否需要更新,默认不更新。仅专享版支持该参数。 不覆盖:如果已存在同名API,则不导入该API。
图11 多IF条件作业样例 配置方法 配置执行策略 登录DataArts Studio控制台,找到所需要的DataArts Studio实例,单击实例卡片上的“进入控制台”,进入概览页面。
上移/下移 您可以在主题列表中,选择一个对象,然后单击其名称右侧的按钮进行下移,或单击其名称右侧的按钮进行上移。 父主题: 数据调研
图11 多IF条件作业样例 配置方法 配置执行策略 登录DataArts Studio控制台,找到所需要的DataArts Studio实例,单击实例卡片上的“进入控制台”,进入概览页面。
开发一个Hive SQL作业 本章节介绍如何在数据开发模块上进行Hive SQL开发。 场景说明 数据开发模块作为一站式大数据开发平台,支持多种大数据工具的开发。Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的SQL查询功能;可以将
一旦数据资产能实现证券化,从某种意义上数据本身就变成了货币。 图3 形成存量资产 父主题: 数据资产入表
导入API并发布到当前空间所有集群:导入API,并发布到当前工作空间的所有集群上。如果没有集群,则不发布只导入。 是否覆盖 配置导入的重名API是否需要更新,默认不更新。仅专享版支持该参数。 不覆盖:如果已存在同名API,则不导入该API。
而表、业务对象、主题域等不同维度的评分,本质上是基于规则评分在不同维度下的加权平均值进行计算的。 您可以查询主题域分组、主题域、业务对象、表以及表关联的规则评分,具体评分对象的计算公式,请参见表2。
行存储是指将表按行存储到硬盘分区上。 DWS_COLUMN:列存表。列存储是指将表按列存储到硬盘分区上。 DWS_VIEW:视图存表。视图存储是指将表按视图存储到硬盘分区上。 MRS_HIVE模型支持HIVE_TABLE和HIVE_EXTERNAL_TABLE。
行存储是指将表按行存储到硬盘分区上。 DWS_COLUMN:列存表。列存储是指将表按列存储到硬盘分区上。 DWS_VIEW:视图存表。视图存储是指将表按视图存储到硬盘分区上。 MRS_HIVE模型支持HIVE_TABLE和HIVE_EXTERNAL_TABLE。
通过应用授权APP认证方式API 应用定义了一个API调用者的身份。对于使用APP认证方式的API,必须在创建APP类型应用并将API授权给应用后,才能获得认证信息以用于API调用。 一个APP认证方式的API可以授权给多个APP类型的应用,多个APP认证方式的API也可以授权给同一个
图6 Subjob节点成功运行 配置方法(Kafka Client) 登录DataArts Studio控制台,找到所需要的DataArts Studio实例,单击实例卡片上的“进入控制台”,进入概览页面。
约束冲突处理配置为"insert into",默认使用IGNORE,与唯一键值上的现有行重复的新行将被丢弃,任务不会终止。因为Mysql服务机制无法在操作过程中停止文件传输,此情况下,CDM界面显示写入记录与实际更新行数会不一致。
8a MPP Cluster V9版本,获取gbase-connector-java-9.5.0.7-build1-bin.jar GBASE8S:GBase 8s V8.8版本,获取gbasedbtjdbc_3.5.1_3X1_3.jar 操作步骤 进入CDM主界面,单击左侧导航上的
cdc_last_update_date Hudi建表参数 Location 存储在OBS或HDFS上数据库表的文件路径。 - Hudi表类型 Hudi表存储类型。 MOR表:数据先写入avro格式的日志文件,读取时合并到parquet文件。
获取实例列表 功能介绍 获取实例列表。 调用方法 请参见如何调用API。 URI GET /v1/{project_id}/instances 表1 路径参数 参数 是否必选 参数类型 描述 project_id 是 String 项目ID,获取方法请参见项目ID和账号ID。 表2
在实时作业里,带箭头的连线仅代表业务上的关系,而非任务执行流程,更不是数据流。 实时处理作业可以配置节点级别的调度任务,即每一个节点可以独立调度,具体请参见配置节点调度任务(实时作业)。
如果某个MRS集群修改了某些配置,也需要同步到另一套MRS集群上。 对于Serverless服务(例如DLI),DataArts Studio通过管理中心的环境隔离来配置生产环境和开发环境数据湖服务的对应关系,在开发和生产流程中自动切换对应的数据湖。