正在生成
详细信息:
检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
包括结构化、半结构化和非结构化数据。 数据处理工具,则分为两大类: 第一类工具,聚焦如何把数据“搬到”湖里。包括定义数据源、制定数据同步策略、移动数据、编制数据目录等。 第二类工具,关注如何对湖中的数据进行分析、挖掘、利用。数据湖需要具备完善的数据管理能力、多样化的数据分析能力
数据架构 码表和数据标准有什么关系? 关系建模和维度建模的区别? 数据架构支持哪些数据建模方法? 规范化的数据如何使用? 数据架构支持逆向数据库吗? 数据架构中的指标与数据质量的指标的区别? 为什么关系建模或维度建模修改字段后,数据库中表无变化? 表是否可配置生命周期管理?
Where子句 “使用SQL语句”选择“否”时,显示该参数,表示配置抽取范围的Where子句,不配置时抽取整表。 该参数支持配置为时间宏变量,实现抽取指定日期的数据,详细说明请参见关系数据库增量迁移。 说明: 如果配置了时间宏变量,通过DataArts Studio数据开发调度CDM迁移作业
动时间-偏移量”。 cdm 自动创表 是否自动创建Hudi表。 不自动创建:不自动建表。 不存在时创建:当目的端的数据库没有“表名”参数中指定的表时,CDM会自动创建该表。如果“表名”参数配置的表已存在,则不创建,数据写入到已存在的表中。 不自动创表 导入前清空数据 选择目的端表中数据的处理方式:
存放,例如:所选的数据仓库是DWS或DLI。 维度建模 维度建模是从分析决策的需求出发构建模型,它主要是为分析需求服务,因此它重点关注用户如何更快速地完成需求分析,同时具有较好的大规模复杂查询的响应性能。 多维模型是由数字型度量值组成的一张事实表连接到一组包含描述属性的多张维度表,事实表与维度表通过主/外键实现关联。
读完主题中的全部数据,也可能是网络或者Kafka集群可用性原因),则立即停止任务,否则持续重试读取数据。单位:秒。 60 消费组ID 用户指定消费组ID。 如果是从DMS Kafka导出数据,专享版请任意输入,标准版请输入有效的消费组ID。 sumer-group 开始时间(>=)
选择条件类型。 满足当前条件时:表示传入“条件分支”的数据满足指定的表达式时,将执行该分支。 不满足其他条件时:表示传入“条件分支”的数据不满足其他所有分支的条件时,将执行该分支。 满足当前条件时:表示传入“条件分支”的数据满足指定的表达式时,将执行该分支。 不满足其他条件时:表示传入“
果处于运行状态,则认为节点执行成功。 注意,此处不会为Flink增加对应的batch或streaming模式参数,您还需要为Flink作业指定对应参数。 MRS集群名 是 选择MRS集群。 如需新建集群,请参考以下方法: 单击,进入“集群列表”页面新建MRS集群。 前往MRS管理控制台进行新建。
Hive/HBase集群不显示? DWS数据连接开启SSL时测试连接失败怎么办? 一个空间可以创建同一数据源的多个连接吗? 连接方式应该选择API连接还是代理连接? 如何将一个空间的数据开发作业和数据连接迁移到另一空间?
DAYU Administrator或Tenant Administrator账号可以在工作空间中创建自定义角色。 如何创建并通过自定义工作空间角色精细化授权IAM用户,可参考如何授权其他用户使用DataArts Studio。 约束与限制 由于鉴权缓存机制的限制,自定义角色的权限发生变
到GES服务中。 图1 业务场景说明 需要额外说明的是,GES图数据格式包含三部分:点数据集、边数据集以及元数据,如果原始数据不符合GES指定的格式,则需要将数据整理为GES支持的格式。 点数据集用于存放点数据。 边数据集用于存放边数据。 元数据用于描述点数据集和边数据集中的数据格式。
autoBroadcastJoinThreshold(自动使用BroadcastJoin的数据量阈值) dli.sql.shuffle.partitions(指定Shuffle过程中Partition的个数) dli.sql.cbo.enabled(是否打开CBO优化策略) dli.sql.cbo.joinReorder
”。 *.csv 时间过滤 选择“是”时,可以根据文件的修改时间,选择性的传输文件。 是 起始时间 “过滤类型”选择“时间过滤器”时,可以指定一个时间值,当文件的修改时间大于等于该时间才会被传输,输入的时间格式需为“yyyy-MM-dd HH:mm:ss”。 该参数支持配置为时间
”。 *.csv 时间过滤 选择“是”时,可以根据文件的修改时间,选择性的传输文件。 是 起始时间 “过滤类型”选择“时间过滤器”时,可以指定一个时间值,当文件的修改时间大于等于该时间才会被传输,输入的时间格式需为“yyyy-MM-dd HH:mm:ss”。 该参数支持配置为时间
project_id 是 String 项目编号,获取方法请参见项目ID和账号ID。 jobName 否 String 作业名称。 如果要查询指定批处理作业的实例列表,jobName就是批处理作业名称; 如果要查询实时作业下某个节点关联的子作业,jobName格式为[实时作业名称]_[节点名称]。
取范围的Where子句,不配置时抽取整表。 指定抽取的是WHERE子句,不指定则抽取整表。如果要迁移的表中没有WHERE子句的字段,迁移失败。例如:age > 18 and age <= 60。 该参数支持配置为时间宏变量,实现抽取指定日期的数据,详细说明请参见关系数据库增量迁移。
数等),用于优化资源使用效率,提升作业的执行性能。 注意: 系统支持Flink Jar作业运行前能够查询历史checkpoint,并选择从指定checkpoint启动。要使Flink Checkpoin生效,需要配置两个运行参数: 用来控制checkpoint间隔 -yD:execution
间、监控指标列表和维度定义。 如果您需要查看实时处理集成作业相关的监控指标,请参见查看实时处理集成作业监控指标。 如果您需要在监控数据满足指定条件时发送报警通知,可参见设置实时处理集成作业告警规则。 前提条件 使用实时处理集成作业监控功能,需获取CES相关权限。 命名空间 SYS
块,进入数据开发页面。 在数据开发主界面的左侧导航栏,选择“运维调度 > 操作历史”。 查看操作历史记录相关数据。 可以通过时间筛选,查看指定操作时间段内的历史操作数据。 可以对“涉及对象”进行过滤,查看作业名称或节点名称相关的历史操作数据。 可以通过模糊查询,查看相关的历史操作数据。
d}命名的桶中。 说明: 若您想自定义存储路径,请参见(可选)修改作业日志存储路径选择您已在OBS服务侧创建的桶。 请确保您已具备该参数所指定的OBS路径的读、写权限,否则系统将无法正常写日志或显示日志。 在数据开发作业中添加CDM Job节点,并关联已创建的CDM作业,如图4所示。