检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
toJobConfig.orientation 否 枚举 存储方式,此参数只有当数据库类型为DWS时启用,当需要自动创建DWS数据库表,指定表的数据存储方式: ROW:表的数据以行式存储。 COLUMN:表的数据以列式存储。 toJobConfig.isCompress 否 Boolean
数据: 关系型数据库,如MySQL/PostgreSQL等(可使用RDS类型连接,采集其元数据) 云搜索服务CSS 图引擎服务GES 对象存储服务OBS MRS Hudi组件(MRS Hudi作为一种数据格式,元数据存放在Hive中,操作通过Spark进行。在Hudi表开启“同步hive表配置”后,可通过采集MRS
生成异常数据:开启此项,表示异常数据将按照配置的参数存储到规定的库中。 数据库或Schema:开启“生成异常数据”时显示此项,表示存储异常数据的数据库或Schema 表前缀:开启“生成异常数据”时显示此项,表示存储异常数据的表的前缀。 表后缀:开启“生成异常数据”时显示此项,表示存储异常数据的表的后缀。 添
审核中心 开发环境生成的指标数据处理类任务提交审核后,都会存储在审核中心页面,然后在审核中心页面进行任务审核发布,这些任务才会生效。在审核中心,可以对提交审核的对象进行统一管理。 在DataArts Studio控制台首页,选择实例,单击“进入控制台”,选择对应工作空间的“数据指标”模块,进入数据指标页面。
f6:表示cdm.small规格,2核CPU、4G内存的虚拟机。适合PoC验证和开发测试。 fb8fe666-6734-4b11-bc6c-43d11db3c745:表示cdm.medium规格,4核CPU、8G内存的虚拟机适合单张表规模<1000万条的场景。 5ddb1071-
您可以选择重启CDM服务进程或重启集群VM,选择完成并单击确认后即可完成集群重启操作。 重启CDM服务进程:只重启CDM服务的进程,不会重启集群虚拟机。 重启集群VM:业务进程会中断,并重启集群的虚拟机。 父主题: 创建并管理CDM集群
密钥加密:用户在CDM上创建连接输入的各种数据源的密钥,CDM均采用高强度加密算法保存在CDM数据库。 无中间存储:数据在迁移的过程中,CDM只处理数据映射和转换,而不会存储任何用户数据或片段。 父主题: 数据集成(CDM作业)
“自动创建”设置为“不自动创建”时,无该此参数。 表路径。 - 存储格式 “自动创建”设置为“不自动创建”时,无该此参数。 选择存储格式。 行式存储格式:TEXTFILE。 列式存储格式:ORC、RCFILE、PARQUET。 TEXTFILE使用明文存储,当数据存在特殊字符的场景下可能会导致数据写
约束限制 该功能依赖于OBS服务。 前提条件 已开通消息通知服务并配置主题,为主题添加订阅。 已提交作业,且作业不是“未启动”状态。 已开通对象存储服务,并在OBS中创建文件夹。 配置通知 参考访问DataArts Studio实例控制台,登录DataArts Studio管理控制台。
据管理能力的一站式治理运营平台,包含数据集成、数据架构、数据开发、数据质量、数据目录、数据服务等功能,支持行业知识库智能化建设,支持大数据存储、大数据计算分析引擎等数据底座,帮助企业快速构建从数据接入到数据分析的端到端智能数据系统,消除数据孤岛,统一数据标准,加快数据变现,实现数字化转型。
EL表达式使用实例 通过本示例,用户可以了解数据开发模块EL表达式的如下应用: 如何在数据开发模块的SQL脚本中使用变量? 作业如何传递参数给SQL脚本变量? 在参数中如何使用EL表达式? 背景信息 使用数据开发模块的作业编排和作业调度功能,每日通过统计交易明细表,生成日交易统计报表。
如果数据内容是使用二进制格式存储的,CDM会无法解析。 从HBase/CloudTable导出数据时,由于HBase/CloudTable是无Schema的存储系统,CDM要求源端数值型字段是以字符串格式存储,而不能是二进制格式,例如数值100需存储格式是字符串“100”,不能是二进制“01100100”。
录的是HDFS上的文件路径。 是 列表文件源连接 文本文件存储在OBS桶中,这里需要选择已建立的OBS连接。 obs_link 列表文件OBS桶 存储文本文件的OBS桶名称。 obs-cdm 列表文件或目录 在OBS中存储文本文件的文件自定义目录,多级目录可用“/”进行分隔。 test1
新建的DLI SQL脚本队列显示的逻辑是这样的,在该工作空间,上一次使用DLI SQL脚本或打开DLI SQL脚本时,所选择的队列会在缓存中进行存储。新建DLI SQL脚本的时候,就会自动选择该队列。 解决方案 要规避这个现象,可以在这个工作空间中,新建DLI SQL脚本的时候选择一个
才显示该参数。 写入脏数据的OBS桶的名称。 dirtydata 脏数据目录 “是否写入脏数据”选择为“是”时,该参数才显示。 OBS上存储脏数据的目录,只有在配置了脏数据目录的情况下才会记录脏数据。 用户可以进入脏数据目录,查看作业执行过程中处理失败的数据或者被清洗过滤掉的数
因此,我们强力推荐您将已有DataArts Studio实例从旧模式升级为新模式。各版本切换前后的情况对比如图1所示。 图1 模式切换前后对比(费用仅做示意,实际收费以官网显示为准) 版本模式升级操作不可回退,升级过程及升级后对功能、业务操作和运行均无任何影响。值得注意的是,切换到新商业模式
查看数据开发的节点日志时,系统提示“OBS日志文件不存在,请检查文件是否被删除或者没有OBS写入权限”,如下图所示: 图1 提示信息 原因分析 数据开发的日志存储在OBS桶中,您所在的用户组没有OBS的操作权限,导致在查看节点日志时系统提示报错,或者OBS日志文件不存在时系统提示报错。 解决方法 使用管理员用户登录IAM控制台。
数据服务SDK概述 本文档指导API调用者通过数据服务SDK代码调用数据API,当前数据服务SDK代码仅支持调用API场景。 数据服务SDK介绍 数据服务SDK是基于DataArts Studio数据服务创建的数据API封装的SDK包。通过调用此SDK包提供的代码样例,即可进行数
行存储到硬盘分区上。 DWS_COLUMN:列存表。列存储是指将表按列存储到硬盘分区上。 DWS_VIEW:视图存表。视图存储是指将表按视图存储到硬盘分区上。 MRS_HIVE模型支持HIVE_TABLE和HIVE_EXTERNAL_TABLE。 MRS_SPARK模型支持HUDI_COW和HUDI_MOR。
围进行裁剪(例如最近一天、一月、一年),这种表通常可以通过数据的创建时间来做分区以保证最佳读写性能。 维度表数据量一般整表数据规模较小,以更新数据为主,新增较少,表数据量比较稳定,且读取时通常需要全量读取做join之类的ETL计算,因此通常使用非分区表性能更好。 确认表内桶数。 使用Hudi