检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
支持多种数仓服务类型 根据需求,可以灵活选择数据服务类型,可以选择DWS服务建数仓,也可以选择MRS服务等数据平台。 安全稳定、降低成本 一站式的服务能力和稳定的数仓服务,让云上数据万无一失;免自建大数据集群、免运维,极大降低企业建设数仓成本。
由于不同类型的数仓支持的更新表的能力不同,在数据架构中所做的表更新操作,如果数仓不支持,则无法确保数据库中的表和数据架构中的表是一致的。例如,DLI类型的表更新操作不支持删除表字段,如果在数据架构的表中删除了表字段,则无法在数据库中相应的删除表字段。
如果要让“00”“01”当成字符类型作为参数传递,需要加上转义字符,例如:[["\"00\""],["\"01\""]];[['\'00\''],['\'01\'']] 子作业并发数 是 循环产生的子作业可以并发执行,您可设置并发数。
表1 字母含义 字母 描述 示例 G 纪元标记 AD y 年 2001 M 年中的月份 July 或 07 d 月份中的日期 10 h 12小时制(1~12)的小时 12 H 24小时制(0~23)的小时 22 m 分钟数 30 s 秒数 55 S 毫秒数 234 E 星期几 Mon
运行程序参数 否 为本次执行的作业配置相关优化参数(例如线程、内存、CPU核数等),用于优化资源使用效率,提升作业的执行性能。 说明: 若集群为MRS 1.8.7版本或MRS 2.0.1之后版本,需要配置此参数。
敏感数据识别过程中,如果规则为内容识别类型(即内置规则和内容识别类型的自定义规则),则仅当数据表中某字段匹配规则的记录数/总记录数>=指定阈值(默认80%)时,才认为该字段为敏感字段,并为之匹配相应密级和分类。 被引用的数据识别规则无法直接删除,需要先解除引用关系后才能删除。
图10 任务配置 单击“显示高级属性”,可配置“抽取并发数”以及“是否写入脏数据”,如图10所示。 抽取并发数:设置同时执行的抽取任务数。并发抽取数取值范围为1-1000,若配置过大,则以队列的形式进行排队。 CDM迁移作业的抽取并发量,与集群规格和表大小有关。
CDM不同集群规格对应并发的作业数是多少? 是否支持增量迁移? 是否支持字段转换? Hadoop类型的数据源进行数据迁移时,建议使用的组件版本有哪些? 数据源为Hive时支持哪些数据格式? 是否支持同步作业到其他集群? 是否支持批量创建作业? 是否支持批量调度作业?
reversed Boolean 是否是逆向的。 partition_conf String 分区表达式。 dirty_out_switch Boolean 异常数据输出开关。 dirty_out_database String 异常数据输出库。
dw_type String 数据连接类型,对应表所在的数仓类型,取值可以为DWS、MRS_HIVE、POSTGRESQL、MRS_SPARK、CLICKHOUSE、MYSQL、ORACLE和DORIS等。
view_text String 采集的视图来源,dws视图逆向使用。 target_table_name String 目的表名称。 details Array of TableMappingDetailVO objects 详情。
准备工作 添加审核人 管理配置中心 主题设计 主题设计 标准管理 新建码表并发布 新建数据标准并发布 关系建模 数仓规划:新建SDI层和DWI层两个模型 维度建模 维度建模:在DWR层新建并发布维度 维度建模:在DWR层新建并发布事实表 指标设计 指标设计:新建并发布技术指标 数据集市建设
MRS Kafka 功能 MRS Kafka主要是查询Topic未消费的消息数。 参数 用户可参考表1和表2配置MRS Kafka的参数。 表1 属性参数 参数 是否必选 说明 数据连接 是 选择管理中心中已创建的MRS Kafka连接。
为实现准确溯源,请确保数据的完整性以及正确性:数据水印溯源的表数据文件第一列不允许为空,表数据记录数建议在5000以上。 创建数据水印溯源任务 在DataArts Studio控制台首页,选择对应工作空间的“数据安全”模块,进入数据安全页面。
view_text String 采集的视图来源,dws视图逆向使用。 target_table_name String 目的表名称。 details Array of TableMappingDetailVO objects 详情。
failPolicy 否 String 执行失败处理策略: SUSPEND :挂起 IGNORE:忽略失败,读取下一事件 默认值 : SUSPEND concurrent 否 int 调度并发数 取值范围:1~128 默认值:1 readPolicy 否 String 读取策略:
须知: Shell或Python脚本可以在该ECS主机上运行的最大并发数由ECS主机的/etc/ssh/sshd_config文件中MaxSessions的配置值确定。请根据Shell或Python脚本的调度频率合理配置MaxSessions的值。
作业任务配置中调整的处理器核数、并发数、执行内存参数等便是用来调整JobManager和TaskManager的,默认情况下单个作业使用2U8G资源,会对应创建出1个JobManager进程和1个TaskManager进程,且均使用1U4G资源。
view_text String 采集的视图来源,dws视图逆向使用。 target_table_name String 目的表名称。 details Array of TableMappingDetailVO objects 详情。
运行程序参数 否 为本次执行的作业配置相关优化参数(例如线程、内存、CPU核数等),用于优化资源使用效率,提升作业的执行性能。 说明: 若集群为MRS 1.8.7版本或MRS 2.0.1之后版本,需要配置此参数。