检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
图1 推荐识别页面 在页面中选择待识别敏感信息数据表,配置采样行数,识别方式选择为“入湖检测规则”。 图2 配置入湖检测 手动刷新获取扫描结果,等待扫描状态为“成功”后 ,扫描结果返回。注意入湖检测规则识别方式为异步识别,需要手动刷新。
merge into loader线程数 每个loader内部启动的线程数,可以提升写入并发数。 1 在DWS端自动建表时的字段类型映射 CDM在数据仓库服务(Data Warehouse Service,简称DWS)中自动建表时,DWS的表与源表的字段类型映射关系如图1所示。
枚举值: SQL:SQL取数方式 ROW_KEY:ROW_KEY取数方式 仅适用于HBASE PREFIX_FILTER:PREFIX_FILTER取数方式仅适用于HBASE access_type 否 String 取数方式(已弃用)。
配置调度依赖后,可以保障调度任务在运行时能取到正确的数据(当前节点依赖的上游节点成功运行后,DataArts Studio通过节点运行的状态识别到上游表的最新数据已产生,下游节点再去取数)。避免下游节点取数据时,上游表数据还未正常产出,导致下游节点取数出现问题。
DataArts Studio实例(指DataArts Studio实例中的CDM集群)与MRS集群同区域情况下,同虚拟私有云、同子网、同安全组的不同实例默认网络互通;如果同虚拟私有云但子网或安全组不同,还需配置路由规则及安全组规则,配置路由规则请参见如何配置路由规则章节,配置安全组规则请参见如何配置安全组规则章节
注意复制后检查数据的行数及数据分行的正确性(注意,如果是从PDF文档中复制样例数据,单行的数据过长时会产生换行,需手动重新调整为单行)。
抽取并发数:设置同时执行的抽取任务数。CDM支持并发抽取MySQL数据,如果源表配置了索引,可调大抽取并发数提升迁移速率。
例如:有10个文件,9个10M,1个200M,在并发任务数中指定“throttlingConfig.numExtractors”(抽取并发数)为“2”,则会分两个分片,一个处理9个10M的文件,一个处理1个200M的文件。
CDM集群创建时,需要注意:虚拟私有云、子网、安全组与MRS集群保持一致,确保网络互通。 建立Hive的数据连接 开发Hive SQL前,我们需要在“管理中心 > 数据连接”模块中建立一个到MRS Hive的连接,数据连接名称为“hive1009”。
例如:有10个文件,9个10M,1个200M,在并发任务数中指定“throttlingConfig.numExtractors”(抽取并发数)为“2”,则会分两个分片,一个处理9个10M的文件,一个处理1个200M的文件。
obs_folder_count Integer obs目录数。 obs_file_count Integer obs文件数。 css_index_count Integer css索引数。 css_index_field_count Integer css 索引字段数目。
周期作业实例并发数 设置所选作业并行处理的数量。 如果设置为保持不变,则保持原来的周期作业实例并发数。 是否清理超期等待运行的作业实例 如果设置为取消运行,需要配置超期天数。当作业实例等待运行的时间超过了所配置的期限天数时,作业实例将取消执行,则会清理超期等待运行的作业实例。
limit 否 int 分页返回结果,指定每页最大记录数。 范围[1,1000] 默认值:10 offset 否 int 分页的起始页,默认值为0。取值范围大于等于0。
否 标题行数 “前N行为标题行”选择“是”时才有该参数。抽取数据时将被跳过的标题行数。 说明: 标题行数不为空,取值为1-99之间的整数。 1 解析首行为列名 “前N行为标题行”选择“是”时才有该参数。选择是否将标题的首行解析为列名,在配置字段映射时会在原字段中显示该列名。
请确保ECS主机与CDM集群网络互通,互通需满足如下条件: CDM集群与ECS主机同区域情况下,同虚拟私有云、同子网、同安全组的不同实例默认网络互通;如果同虚拟私有云但是子网或安全组不同,还需配置路由规则及安全组规则,配置路由规则请参见如何配置路由规则章节,配置安全组规则请参见如何配置安全组规则章节
row_count Number 采样行数。 column_count Number 列数。 unique Boolean 是否唯一。 auto_stop Boolean 自动停止。 time_profile Boolean 时间档案 queue String 队列。
获取普通API的结果集及相关变量: 获取普通API的查询状态是否成功,结果为true或false:${节点编码|payload.success} 获取普通API查询结果集内的行数:${节点编码|payload.rowSize} 获取普通API查询结果集内的列数:${节点编码|payload.columnSize
write_rows 否 Integer 增量作业写入行数,已废弃。 rows_written 否 Integer 作业写入的行数。由系统生成,用户无需填写。 rows_read 否 Long 作业读取的行数。由系统生成,用户无需填写。
comment_num int 累计评论数分段 0表示无评论 1表示有1条评论 2表示有2-10条评论 3表示有11-50条评论 4表示大于50条评论 has_bad_comment int 是否有差评 0表示无,1表示有 bad_comment_rate float 差评率 差评数占总评论数的比重
在排除源端负载的情况下,如果源端是MySQL/Oracle/SQLServer/PostgreSQL/GaussDB等的全量+增量作业且作业处于全量抽取阶段,或者Kafka/Hudi等数据源抽取速度慢,请优先尝试加大作业并发数,以提高作业的并发抽取速率。