华为云用户手册

  • FunctionGraph 控制策略名称 功能 场景 严重程度 资源 规则参数是否必填 RGC-GR_CONFIG_FUNCTION_GRAPH_CONCURRENCY_CHECK FunctionGraph函数并发数不在指定的范围内,视为“不合规”。 提高可用性 中 fgs:::function 不涉及 RGC-GR_CONFIG_FUNCTION_GRAPH_INSIDE_VPC 函数工作流 未使用指定VPC,视为“不合规” 限制网络访问 低 fgs:::function 否 RGC-GR_CONFIG_FUNCTION_GRAPH_SETTINGS_CHECK 函数工作流的运行时、超时时间、内存限制不在指定范围内,视为“不合规” 管理漏洞 中 fgs:::function 否 RGC-GR_CONFIG_FUNCTION_GRAPH_ LOG GING_ENABLED 函数工作流的函数未启用日志配置,视为“不合规”。 建立日志记录和监控 中 fgs:::function 不涉及
  • GaussDB 控制策略名称 功能 场景 严重程度 资源 规则参数是否必填 RGC-GR_CONFIG_GAUSSDB_INSTANCE_ENABLE_AUDITLOG 未开启审计日志的GaussDB资源,视为“不合规”。 建立日志记录和监控 中 gaussdb:::opengaussInstance 不涉及 RGC-GR_CONFIG_GAUSSDB_INSTANCE_ENABLE_BACKUP 未开启资源备份的GaussDB资源,视为“不合规”。 提高韧性 中 gaussdb:::opengaussInstance 不涉及 RGC-GR_CONFIG_GAUSSDB_INSTANCE_ENABLE_ERRORLOG 未开启错误日志的GaussDB资源,视为“不合规”。 建立日志记录和监控 低 gaussdb:::opengaussInstance 不涉及 RGC-GR_CONFIG_GAUSSDB_INSTANCE_ENABLE_SLOWLOG 未开启慢日志的GaussDB资源,视为“不合规”。 建立日志记录和监控 低 gaussdb:::opengaussInstance 不涉及 RGC-GR_CONFIG_GAUSSDB_INSTANCE_MULTIPLE_AZ_CHECK GaussDB资源未跨AZ部署,视为“不合规”。 提高可用性 中 gaussdb:::opengaussInstance 不涉及 RGC-GR_ RFS _GAUSSDB_OPENGAUSS_INSTANCE_MULTIPLE_AZ_CHECK 要求GaussDB OpenGauss实例配置多个可用区以实现高可用性。 提高可用性 低 gaussdb:::opengaussInstance
  • EVS 控制策略名称 功能 场景 严重程度 资源 规则参数是否必填 RGC-GR_CONFIG_EVS_USE_IN_SPECIFIED_DAYS 创建的EVS在指定天数后仍未绑定到资源实例,视为“不合规”。 优化成本 中 evs:::volume 不涉及 RGC-GR_CONFIG_VOLUME_UNUSED_CHECK 云硬盘未挂载给任何云服务器,视为“不合规”。 优化成本 高 evs:::volume 不涉及 RGC-GR_CONFIG_ALLOWED_VOLUME_SPE CS 指定允许的云硬盘类型列表,云硬盘的类型不在指定的范围内,视为“不合规”。 保护配置 低 evs:::volume 否 RGC-GR_EVS_ALL_OPERATION_PROHIBITED 不允许调用EVS的API。 保护配置 严重 evs:::volume 不涉及 RGC-GR_ECS_ATTACH_NO_ENCRYPTED_EVS_PROHIBITED 不允许对云服务器挂载一个未加密的云硬盘。 保护配置 严重 evs:::volume 不涉及
  • ECS 控制策略名称 功能 场景 严重程度 资源 规则参数是否必填 RGC-GR_CONFIG_ALLOWED_ECS_FLAVORS ECS资源的规格不在指定的范围内,视为“不合规”。 保护配置 低 ecs:::instanceV1 否 RGC-GR_CONFIG_ALLOWED_IMAGES_BY_NAME 指定允许的镜像名称列表,ECS实例的镜像名称不在指定的范围内,视为“不合规”。 管理漏洞 高 ecs:::instanceV1 是 RGC-GR_CONFIG_STOPPED_ECS_DATE_DIFF 关机状态的ECS未进行任意操作的时间超过了允许的天数,视为“不合规”。 优化成本 中 ecs:::instanceV1ecs:::instanceV1 是 RGC-GR_CONFIG_ECS_ATTACHED_HSS_AGENTS_CHECK ECS实例未绑定HSS代理并启用防护,视为“不合规”。 管理漏洞 中 ecs:::instanceV1 不涉及
  • ECS、IMS 控制策略名称 功能 场景 严重程度 资源 规则参数是否必填 RGC-GR_CONFIG_ALLOWED_IMAGES_BY_ID 指定允许的镜像ID列表,ECS实例的镜像ID不在指定的范围内,视为“不合规”。 管理漏洞 高 ecs:::instanceV1 否 RGC-GR_CONFIG_APPROVED_IMS_BY_TAG ECS的镜像不在指定tag的IMS的范围内,视为“不合规”。 管理漏洞 中 ecs:::instanceV1 specifiedIMSTagKey:是 specifiedIMSTagValue:否
  • ELB 控制策略名称 功能 场景 严重程度 资源 规则参数是否必填 RGC-GR_CONFIG_ELB_MULTIPLE_AZ_CHECK 检查负载均衡器是否已从多个可用分区注册实例。如果负载均衡器的实例注册在少于2个可用区,视为“不合规”。 弹性负载均衡 中 elb:::loadbalancer 不涉及 RGC-GR_CONFIG_ELB_MEMBERS_WEIGHT_CHECK 后端服务器的权重为0,且其所属的后端服务器组的负载均衡算法不为“SOURCE_IP”时,视为“不合规”。 提高可用性 低 elb:::member 不涉及 RGC-GR_RFS_ELB_PREDEFINED_SECURITY_POLICY_CHECK 要求任何独享型 ELB负载均衡 器HTTPS侦听器具有一个拥有强配置的预定义安全策略。 限制网络访问 中 elb:::listener 不涉及 RGC-GR_RFS_LB_TLS_HTTPS_LISTENERS_ONLY_CHECK 要求为私网类型的ELB负载均衡器侦听器配置HTTPS终止。 加密传输中的数据 中 lb:::listener 不涉及 RGC-GR_RFS_ELB_TLS_HTTPS_LISTENERS_ONLY_CHECK 要求为独享型ELB应用程序或经典负载均衡器侦听器配置HTTPS终止。 加密传输中的数据 中 elb:::listener 不涉及 RGC-GR_RFS_ELB_DELETION_PROTECTION_ENABLED_CHECK 要求激活应用程序负载均衡器删除保护。 提高可用性 中 elb:::loadbalancer 不涉及 RGC-GR_RFS_ELB_MULTIPLE_AZ_CHECK 要求任何经典负载均衡器配置多个可用区。 提高可用性 中 elb:::loadbalancer 不涉及
  • DWS 控制策略名称 功能 场景 严重程度 资源 规则参数是否必填 RGC-GR_CONFIG_DWS_ENABLE_SNAPSHOT DWS集群未启用自动快照,视为“不合规”。 提高韧性 中 dws:::cluster 不涉及 RGC-GR_CONFIG_DWS_MAINTAIN_WINDOW_CHECK DWS集群运维时间窗不满足配置,视为“不合规”。 为事件响应做好准备 中 dws:::cluster 不涉及 RGC-GR_CONFIG_DWS_ENABLE_LOG_DUMP DWS集群未启用日志转储,视为“不合规”。 建立日志记录和监控 中 dws:::cluster 不涉及 RGC-GR_RFS_DWS_CLUSTER_ENCRYPTION_ENABLED_CHECK 要求对所有DWS集群进行静态加密。 加密静态数据 中 dws:::cluster 不涉及
  • DMS 控制策略名称 功能 场景 严重程度 资源 规则参数是否必填 RGC-GR_RFS_KAFKA_MULTIPLE_AZ_CHECK 要求Kafka实例配置多个可用区以实现高可用性。 提高可用性 低 dms:::kafkaInstance 不涉及 RGC-GR_RFS_ROCKETMQ_MULTIPLE_AZ_CHECK 要求RocketMQ实例配置多个可用区以实现高可用性。 提高可用性 低 dms:::rocketmqInstance 不涉及 RGC-GR_RFS_RABBITMQ_MULTIPLE_AZ_CHECK 要求RabbitMQ实例配置多个可用区以实现高可用性。 提高可用性 低 dms:::rabbitmqInstance 不涉及 RGC-GR_RFS_KAFKA_INSTANCE_TLS_CHECK 要求Kafka实例需要为支持的引擎类型提供传输层安全性协议(TLS)连接。 加密传输中的数据 中 dms:::kafkaInstance 不涉及 RGC-GR_RFS_RABBITMQ_INSTANCE_TLS_CHECK 要求RabbitMQ实例需要为支持的引擎类型提供传输层安全性协议(TLS)连接。 加密传输中的数据 中 dms:::rabbitmqInstance 不涉及 RGC-GR_RFS_ROCKETMQ_INSTANCE_TLS_CHECK 要求RocketMQ实例需要为支持的引擎类型提供传输层安全性协议(TLS)连接。 加密传输中的数据 中 dms:::rocketmqInstance 不涉及 RGC-GR_RFS_RABBITMQ_DLQ_CHECK 要求任何RabbitMQ队列配置死信队列。 提高韧性 高 dms:::rabbitmqInstance 不涉及
  • DDS 控制策略名称 功能 场景 严重程度 资源 规则参数是否必填 RGC-GR_CONFIG_DDS_INSTANCE_HAMODE 指定实例类型,不属于此的DDS实例资源,视为“不合规”。 保护配置 低 dds:::instance 否 RGC-GR_CONFIG_DDS_INSTANCE_ENGINE_VERSION_CHECK 低于指定版本的DDS实例,视为“不合规”。 管理漏洞 低 dds:::instance 否 RGC-GR_RFS_DDS_INSTANCE_ENCRYPTED_CHECK 要求对DDS实例进行静态加密。 加密静态数据 中 dds:::instance 不涉及
  • DEW 控制策略名称 功能 场景 严重程度 资源 规则参数是否必填 RGC-GR_RFS_DEW_KEY_ROTATION_ENABLED_CHECK 要求任何KMS密钥配置轮换。 加密静态数据 中 kms:::key 不涉及 RGC-GR_CONFIG_C SMS _SECRETS_AUTO_ROTATION_ENABLED CSMS凭据未启动自动轮转,视为“不合规”。 管理机密 中 csms:::secret 不涉及 RGC-GR_CONFIG_CSMS_SECRETS_PERIODIC_ROTATION CSMS凭据未在指定天数内轮转,视为“不合规”。 管理机密 中 csms:::secret 不涉及 RGC-GR_CONFIG_CSMS_SECRETS_USING_CMK CSMS凭据未使用指定的KMS,视为“不合规”。 加密静态数据 高 csms:::secret 否
  • CTS 控制策略名称 功能 场景 严重程度 资源 规则参数是否必填 RGC-GR_CONFIG_MULTI_REGION_CTS_TRACKER_EXISTS 账号未在指定Region列表创建并启用CTS追踪器,视为“不合规”。 建立日志记录和监控 高 cts:::tracker 否 RGC-GR_CONFIG_CTS_OBS_BUCKET_TRACK 账号下的所有CTS追踪器未追踪指定的OBS桶,视为“不合规”。 建立日志记录和监控 高 cts:::tracker 是 RGC-GR_CONFIG_CTS_TRACKER_ENABLED_SECURITY 不存在满足安全最佳实践的CTS追踪器,视为“不合规”。 建立日志记录和监控 高 cts:::tracker 否 RGC-GR_RFS_CTS_LOG_FILE_VALIDATION_ENABLED_CHECK 要求CTS追踪器激活日志文件验证。 保护数据完整性 高 cts:::tracker 不涉及 RGC-GR_RFS_CTS_LOGS_ENABLED_CHECK 要求CTS追踪器具有LTS日志组配置。 建立日志记录和监控 低 cts:::tracker 不涉及
  • CSS 控制策略名称 功能 场景 严重程度 资源 规则参数是否必填 RGC-GR_CONFIG_CSS_CLUSTER_BACKUP_AVAILABLE CSS集群未启用快照,视为“不合规”。 提高韧性 中 css:::cluster 不涉及 RGC-GR_CONFIG_CSS_CLUSTER_MULTIPLE_AZ_CHECK CSS集群没有多AZ容灾,视为“不合规”。 提高可用性 中 css:::cluster 不涉及 RGC-GR_CONFIG_CSS_CLUSTER_MULTIPLE_INSTAN CES _CHECK CSS集群没有多实例容灾,视为“不合规”。 提高可用性 中 css:::cluster 不涉及 RGC-GR_CONFIG_CSS_CLUSTER_IN_VPC CSS集群未与指定的VPC资源绑定,视为“不合规”。 限制网络访问 严重 css:::cluster 否 RGC-GR_CONFIG_CSS_CLUSTER_SLOWLOG_ENABLE CSS集群未开启慢日志,视为“不合规”。 建立日志记录和监控 中 css:::cluster 不涉及 RGC-GR_RFS_CSS_CLUSTER_MULTIPLE_AZ_CHECK 要求CSS集群配置多个可用区以实现高可用性。 提高可用性 低 css:::cluster
  • CES 控制策略名称 功能 场景 严重程度 资源 规则参数是否必填 RGC-GR_CONFIG_ALARM_ACTION_ENABLED_CHECK CES告警操作未启用,视为“不合规”。 建立日志记录和监控 中 ces:::alarmRule 不涉及 RGC-GR_CONFIG_ALARM_RESOURCE_CHECK 指定的资源类型没有绑定指定指标CES告警,视为“不合规” 建立日志记录和监控 低 ces:::alarmRule provider:是 resourceType:是 metricName:是 RGC-GR_CONFIG_ALARM_SETTINGS_CHECK 特定指标的CES告警没有进行特定配置,视为“不合规” 建立日志记录和监控 低 ces:::alarmRule metricName:是 threshold:是 count:是 period:是 comparisonOperator:是 filter:是 RGC-GR_RFS_CES_ALARM_ACTION_CHECK 要求CES警报为警报状态配置操作。 建立日志记录和监控 高 ces:::alarmRule 不涉及 RGC-GR_RFS_CES_ALARM_ACTION_ENABLED_CHECK 要求CES警报激活操作。 建立日志记录和监控 严重 ces:::alarmRule 不涉及
  • CCE 控制策略名称 功能 场景 严重程度 资源 规则参数是否必填 RGC-GR_CONFIG_CCE_CLUSTER_END_OF_MAINTENANCE_VERSION CCE集群版本为停止维护的版本,视为“不合规”。 管理漏洞 中 cce:::cluster 不涉及 RGC-GR_CONFIG_CCE_CLUSTER_OLDEST_SUPPORTED_VERSION 如果CCE集群运行的是受支持的最旧版本(等于参数“最旧版本支持”),视为“不合规”。 管理漏洞 中 cce:::cluster 不涉及 RGC-GR_CONFIG_ALLOWED_CCE_FLAVORS CCE集群的规格不在指定的范围内,视为“不合规”。 保护配置 低 cce:::cluster 否 RGC-GR_RFS_CCE_SECRETS_ENCRYPTED_CHECK 要求使用密钥管理服务(KMS)密钥为CCE集群配置密钥加密。 加密静态数据 中 cce:::cluster 不涉及
  • CCM 控制策略名称 功能 场景 严重程度 资源 规则参数是否必填 RGC-GR_CONFIG_PCA_CERTIFICATE_AUTHORITY_ROOT_DISABLE 私有根CA未停用,视为“不合规”。 管理机密 中 scm:::certificate 不涉及 RGC-GR_CONFIG_PCA_ALGORITHM_CHECK 私有证书管理服务使用了禁止的密钥算法或签名哈希算法,视为“不合规” 加密传输中的数据 高 ccm:::privateCertificate blockedKeyAlgorithm:否 blockedSignatureAlgorithm:否
  • CBR 控制策略名称 功能 场景 严重程度 资源 规则参数是否必填 RGC-GR_CONFIG_CBR_POLICY_MINIMUM_FREQUENCY_CHECK CBR备份策略执行频率低于设定值,视为“不合规”。 为灾难恢复做好准备 中 cbr:::policy 不涉及 RGC-GR_CONFIG_CBR_VAULT_MINIMUM_RETENTION_CHECK 存储库未绑定策略或绑定的策略按天数保留且保留天数低于设定值,视为“不合规”。 为灾难恢复做好准备 中 cbr:::vault 不涉及
  • CBR、EVS 控制策略名称 功能 场景 严重程度 资源 规则参数是否必填 RGC-GR_CONFIG_EVS_PROTECTED_BY_CBR EVS磁盘没有关联备份存储库,视为“不合规”。 为灾难恢复做好准备 中 evs:::volume 不涉及 RGC-GR_CONFIG_EVS_LAST_BACKUP_CREATED EVS磁盘最近一次备份创建时间超过参数要求,视为“不合规”。 为灾难恢复做好准备 低 evs:::volume 不涉及
  • CBR、ECS 控制策略名称 功能 场景 严重程度 资源 规则参数是否必填 RGC-GR_CONFIG_ECS_PROTECTED_BY_CBR ECS资源没有关联备份存储库,视为“不合规”。 为灾难恢复做好准备 中 ecs:::instanceV1 不涉及 RGC-GR_CONFIG_ECS_LAST_BACKUP_CREATED ECS云服务器 最近一次备份创建时间超过参数要求,视为“不合规”。 为灾难恢复做好准备 低 ecs:::instanceV1 不涉及
  • CBR、SFSturbo 控制策略名称 功能 场景 严重程度 资源 规则参数是否必填 RGC-GR_CONFIG_SFSTURBO_PROTECTED_BY_CBR SFSturbo资源没有关联备份存储库,视为“不合规”。 为灾难恢复做好准备 中 sfs:::turbo 不涉及 RGC-GR_CONFIG_SFSTURBO_LAST_BACKUP_CREATED SFSturbo资源最近一次备份创建时间超过参数要求,视为“不合规”。 为灾难恢复做好准备 低 sfs:::turbo 不涉及
  • AS 控制策略名称 功能 场景 严重程度 资源 规则参数是否必填 RGC-GR_CONFIG_AS_CAPACITY_REBALANCING 弹性伸缩组扩缩容时,没有使用‘EQUILIBRIUM_DISTRIBUTE’优先级策略,视为“不合规”。 提高可用性 中 as:::group 不涉及 RGC-GR_CONFIG_AS_GROUP_ELB_HEALTHCHECK_REQUIRED 与负载均衡器关联的伸缩组未使用弹性负载均衡健康检查,视为“不合规”。 提高可用性 低 as:::group 不涉及 RGC-GR_CONFIG_AS_MULTIPLE_AZ 弹性伸缩组没有启用多AZ部署,视为“不合规”。 提高可用性 中 as:::group 不涉及 RGC-GR_CONFIG_AS_GROUP_IPV6_DISABLED 弹性伸缩组绑定IPv6共享带宽,视为“不合规”。 优化成本 低 as:::group 不涉及 RGC-GR_RFS_AS_GROUP_MULTIPLE_AZ_CHECK 要求AS组拥有多个可用区。 提高可用性 中 as:::group 不涉及
  • * 控制策略名称 功能 场景 严重程度 资源 规则参数是否必填 RGC-GR_CONFIG_REGULAR_MATCHING_OF_NAMES 资源名称不满足正则表达式,视为“不合规”。 保护配置 低 * 是 RGC-GR_CONFIG_RESOURCE_IN_ENTERPRISE_PROJECT 指定企业项目ID,属于该企业项目的资源,视为“不合规”。 保护配置 低 * 是 RGC-GR_CONFIG_RESOURCES_IN_ALLOWED_TYPES 用户创建指定类型以外的资源,视为“不合规”。 保护配置 低 * 否 RGC-GR_CONFIG_RESOURCES_IN_NOT_ALLOWED_TYPES 用户创建指定类型的资源,视为“不合规”。 保护配置 低 * 否 RGC-GR_CONFIG_RESOURCES_IN_SUPPORTED_REGION 资源不在指定区域内,视为“不合规”。 保护配置 低 * 否
  • 配置作业参数 单击编辑器右侧的“参数”,展开配置页面,配置如表4所示的参数。 表4 作业参数配置 功能 说明 变量 新增 单击“新增”,在文本框中填写作业参数的名称和参数值。 参数名称 名称只能包含字符:英文字母、数字、中划线和下划线。 参数值 字符串类的参数直接填写字符串,例如:str1 数值类的参数直接填写数值或运算表达式。 参数配置完成后,在作业中的引用格式为:${参数名称} 编辑参数表达式 在参数值文本框后方,单击,编辑参数表达式,更多表达式请参见表达式概述。 修改 在参数名和参数值的文本框中直接修改。 掩码显示 在参数值为密钥等情况下,从安全角度,请单击将参数值掩码显示。 删除 在参数值文本框后方,单击,删除作业参数。 常量 新增 单击“新增”,在文本框中填写作业常量的名称和参数值。 参数名称 名称只能包含字符:英文字母、数字、中划线和下划线。 参数值 字符串类的参数直接填写字符串,例如:str1 数值类的参数直接填写数值或运算表达式。 参数配置完成后,在作业中的引用格式为:${参数名称} 编辑参数表达式 在参数值文本框后方,单击,编辑参数表达式,更多表达式请参见表达式概述。 修改 在参数名和参数值的文本框中直接修改,修改完成后,请保存。 删除 在参数值文本框后方,单击,删除作业常量。 工作空间环境变量 查看工作空间已配置的变量和常量。 单击“作业参数预览”页签,展开预览页面,配置如表5所示的参数。 表5 作业参数预览 功能 说明 当前时间 仅单次调度才显示。系统默认为当前时间。 事件触发时间 仅事件驱动调度才显示。系统默认为事件触发时间。 周期调度 仅周期调度才显示。系统默认为调度周期。 具体时间 仅周期调度才显示。周期调度配置的具体运行时间。 起始日期 仅周期调度才显示。周期调度的生效时间。 后N个实例 作业运行调度的实例个数。 单次调度场景默认为1。 事件驱动调度场景默认为1。 周期调度场景 当实例数大于10时,系统最多展示10个日期实例,系统会自动提示“当前参数预览最多支持查看10个实例”。 在作业参数预览中,如果作业参数配置存在语法异常情况系统会给出提示信息。 如果参数配置了依赖作业实际运行时产生的数据,参数预览功能中无法模拟此类数据,则该数据不展示。
  • 配置 MRS Flink Jar作业 表1 配置MRS Flink Jar作业属性参数 参数 是否必选 说明 Flink作业名称 是 输入Flink作业名称。 系统支持Flink作业名称按照工作空间-作业名称格式自动填入。 作业名称只能包含英文字母、数字、中划线和下划线,且长度为1~64个字符,不能包含中文字符。 MRS集群名 是 选择MRS集群名称。 说明: 单任务Flink Jar目前支持的MRS集群版本是MRS 3.2.0-LTS.1及以上版本。 运行程序参数 否 配置作业运行参数。当选择了MRS集群名后,该参数才显示。 该参数为本次执行的作业配置相关优化参数(例如线程、内存、CPU核数等),用于优化资源使用效率,提升作业的执行性能。 注意: 系统支持Flink Jar作业运行前能够查询历史checkpoint,并选择从指定checkpoint启动。要使Flink Checkpoin生效,需要配置两个运行参数: 用来控制checkpoint间隔 -yD:execution.checkpointing.interval=1000 用来控制保留的checkpoint数量 -yD:state.checkpoints.num-retained=10 查询checkpoint列表时,配置-s参数,鼠标单击参数值输入框,checkpoint列表参数值会自动弹出。 说明: 若集群为MRS 1.8.7版本或MRS 2.0.1之后版本,需要配置此参数。 单击“选择模板”,选择已创建好的脚本模板,系统支持可以引用多个模板。创建模板的详细操作请参见配置模板。 MRS Flink作业的运行程序参数,请参见《MapReduce用户指南》中的运行Flink作业。 Flink作业执行参数 否 配置Flink作业执行参数。 Flink程序执行的关键参数,该参数由用户程序内的函数指定。多个参数间使用空格隔开。 MRS资源队列 否 选择已创建好的MRS资源队列。 需要先在数据安全服务队列权限功能中,配置对应的队列后,才能在此处选择到已配置的队列。当有多处同时配置了资源队列时,此处配置的资源队列为最高优先级。 Flink作业资源包 是 选择Jar包。在选择Jar包之前,您需要先将Jar包上传至OBS桶中,并在“资源管理”页面中新建资源将Jar包添加到资源管理列表中,具体操作请参考新建资源。 重跑策略 否 从上一个检查点重跑 重新启动 输入数据路径 否 设置输入数据路径,系统支持从HDFS或OBS的目录路径进行配置。 输出数据路径 否 设置输出数据路径,系统支持从HDFS或OBS的目录路径进行配置。 表2 配置高级参数 参数 是否必选 说明 作业状态轮询时间(秒) 是 设置轮询时间(30~60秒、120秒、180秒、240秒、300秒),每隔x秒查询一次作业是否执行完成。 作业运行过程中,根据设置的作业状态轮询时间查询作业运行状态。 最长等待时间 是 设置作业执行的超时时间,如果作业配置了重试,在超时时间内未执行完成,该作业将会再次重试。 说明: 如果作业一直处于启动中状态,没有成功开始运行,超时后作业会被置为失败。 失败重试 否 节点执行失败后,是否重新执行节点。 是:重新执行节点,请配置以下参数。 超时重试 最大重试次数 重试间隔时间(秒) 否:默认值,不重新执行节点。 说明: 如果作业节点配置了重试,并且配置了超时时间,该节点执行超时后,系统支持再重试。 当节点运行超时导致的失败不会重试时,您可前往“默认项设置”修改此策略。 当“失败重试”配置为“是”才显示“超时重试”。 参数设置完成后,单击“保存”,并提交该作业。 单击“启动”,运行该作业。
  • 开发DWS SQL作业 DWS SQL脚本开发完成后,我们为DWS SQL脚本构建一个周期执行的作业,使得该脚本能定期执行。 创建一个批处理作业,作业名称为“job_dws_sql”。 然后进入到作业开发页面,拖动DWS SQL节点到画布中并单击,配置节点的属性。 图2 配置DWS SQL节点属性 关键属性说明: SQL脚本:关联开发DWS SQL脚本中开发完成的DWS SQL脚本“dws_sql”。 数据连接:默认选择SQL脚本“dws_sql”中设置的数据连接,支持修改。 数据库:默认选择SQL脚本“dws_sql”中设置的数据库,支持修改。 脚本参数:通过EL表达式获取"yesterday"的值,EL表达式如下: #{Job.getYesterday("yyyy-MM-dd")} 节点名称:默认显示为SQL脚本“dws_sql”的名称,支持修改。 作业编排完成后,单击,测试运行作业。 如果运行成功,单击画布空白处,在右侧的“调度配置”页面,配置作业的调度策略。 图3 配置调度方式 说明: 2021/08/06至2021/08/31,每天2点执行一次作业。 单击“提交”,执行调度作业,实现作业每天自动运行。
  • DataArts Studio 使用流程简介 使用DataArts Studio平台,通常包括以下步骤: 表1 DataArts Studio全流程开发 主流程 说明 子任务 操作指导 流程设计 在使用DataArts Studio前,建议您通过流程设计提前分析业务情况,明确业务诉求,并结合DataArts Studio服务的能力进行业务流程设计。 需求分析。分析业务情况,明确业务诉求,并提炼出 数据治理 流程的实现框架,支撑具体数据治理实施流程的设计。 业务调研。明确DataArts Studio服务的能力边界,并分析后续的业务负载情况。 流程设计。以实际业务情况结合DataArts Studio服务的业务能力,完成数据治理业务流程设计,后续的数据治理操作均基于所设计的业务流程完成。 需求分析 业务调研 流程设计 流程设计与实际业务强相关,您可以参考基于出租车出行数据的数据治理流程设计进行流程设计,或通过咨询了解。 购买并配置DataArts Studio 如果您是第一次使用DataArts Studio,需要先完成 注册华为账号 、购买DataArts Studio实例、创建工作空间等一系列操作。 购买并配置DataArts Studio 购买并配置DataArts Studio 授权用户使用DataArts Studio 如果您需要授权其他 IAM 用户使用DataArts Studio,则需要完成创建用户并授权的操作。 授权用户使用DataArts Studio 授权用户使用DataArts Studio 管理中心 根据自身的业务特点和源数据类型,进行数据存储与分析系统的选型,选取合适的云服务用于存储源数据并进行数据查询和分析。然后,创建该云服务相应的数据连接。 新建数据连接 创建DataArts Studio数据连接 数据集成 通过DataArts Studio平台将源数据上传或者接入到云上。 数据集成提供同构/异构数据源之间批量数据迁移的服务,支持自建和云上的文件系统,以及关系数据库, 数据仓库 ,NoSQL,大数据云服务,对象存储等数据源。 数据集成 支持的数据源 创建 CDM 集群 创建CDM与数据源之间的连接 新建表/文件迁移作业 数据目录(元数据采集) 为了在DataArts Studio对迁移到云上的原始数据层进行管理和监控,先对其元数据进行采集并监控。 元数据采集 采集数据源的元数据 数据架构 数据架构以关系建模、维度建模理论支撑实现规范化、可视化、标准化数据模型开发,定位于数据治理流程设计落地阶段,输出成果用于指导开发人员实践落地数据治理方法论。 根据业务需求设计关系模型、维度模型,在数据架构模块中,逐步建立模型中的对象,例如维度、事实表、指标、汇总表等。 添加审核人 添加审核人 管理配置中心 管理配置中心 流程设计 流程设计 主题设计 主题设计 码表管理 新建码表 制定数据标准 新建数据标准 关系建模 关系建模 维度建模 维度建模 业务指标 业务指标 技术指标 技术指标 数据集市建设 数据集市 数据开发 可管理多种大数据服务,提供一站式的大数据开发环境。 使用DataArts Studio数据开发,用户可进行数据管理、数据集成、脚本开发、作业开发、作业调度、运维监控等操作,轻松完成整个数据的处理分析流程。 数据管理 数据管理流程 脚本开发 脚本开发流程 作业开发 作业开发流程 运维调度 运维概览 数据质量 对业务指标和数据指标进行监控。您可从完整性、有效性、及时性、一致性、准确性、唯一性六个维度进行单列、跨列、跨行和跨表的分析。支持数据的标准化,能够根据数据标准自动生成标准化的质量规则。支持周期性的监控。 业务指标监控 新建指标 新建规则 新建业务场景 数据质量监控 新建数据质量规则 新建数据质量作业 新建数据对账作业 数据目录(数据地图与数据权限) 在DataArts Studio数据目录模块中,您可以查看数据地图,还可以进行数据权限管理。 数据地图 查看工作空间内的数据资产 数据权限 数据权限简介 数据安全 数据安全为 数据湖 提供数据生命周期内统一的数据使用保护能力。在数据安全模块,您可以进行访问权限管理、敏感数据识别、隐私保护管理等操作。 统一权限治理 权限治理使用流程 敏感数据治理 敏感数据治理流程 隐私保护管理 隐私数据保护简介 数据服务 统一管理对内对外的 API服务 ,提供快速将数据表生成数据API的能力,同时支持将现有的API快速注册到数据服务平台以统一管理和发布。 开发API 购买并管理专享版集群 新建数据服务审核人 创建API 调试API 发布API 管理API 编排API 配置API调用流控策略 授权API调用 调用API 申请API授权 通过不同方式调用API
  • 源端优化 MySQL抽取优化 可通过在作业任务配置参数单击中“添加自定义属性”来新增MySQL同步参数。 图1 添加自定义属性 可使用的调优参数具体如下: 表1 全量阶段优化参数 参数名 类型 默认值 说明 scan.incremental.snapshot.backfill.skip boolean true 全量阶段是否跳过读取binlog数据,默认为true。跳过读取binlog数据可以有效降低内存使用。需要注意的是,跳过读取binlog功能只提供at-least-once保证。 scan.incremental.snapshot.chunk.size int 50000 分片大小,决定了全量阶段单个分片最大数据的数据条数以及分片个数。分片大小越大,单个分片数据条数越多,分片个数越小。 当表的条数过多时,作业会划分较多的分片,从而占用过多的内存导致内存问题,请解决表的条数适当调整该值。 当scan.incremental.snapshot.backfill.skip为false时,实时处理集成作业会缓存单个分片的数据,此时分片越大,占用内存越多,引发内存溢出,在此场景下,可以考虑降低分片大小。 scan.snapshot.fetch.size int 1024 全量阶段抽取数据时,从Mysql侧单次请求抽取数据的最大条数,适当增加请求条数可以减少对Mysql的请求次数提升性能。 debezium.max.queue.size int 8192 数据缓存队列条数,默认为8192,当源表中单条数据过大时(如1MB),缓存过多数据会导致内存溢出,可以考虑减小该值。 debezium.max.queue.size.in.bytes int 0 数据缓存队列大小,默认为0,即表示缓存队列不考虑数据大小,只按照数据条数计算。在debezium.max.queue.size无法有效限制内存占用时,考虑显式设置该值来限制缓存数据的大小。 jdbc.properties.socketTimeout int 300000 全量阶段连接Mysql的socket超时时间,默认为5分钟。当Mysql负载较高,作业出现SocketTimeout异常时,考虑增大该值。 jdbc.properties.connectTimeout int 60000 全量阶段连接Mysql的连接超时时间,默认为1分钟。当Mysq负载较高,作业出现ConnectTimeout异常时,考虑增大该值。 表2 增量阶段优化参数 参数名 类型 默认值 说明 debezium.max.queue.size int 8192 数据缓存队列条数,默认为8192,当源表中单条数据过大时(如1MB),缓存过多数据会导致内存溢出,可以考虑减小该值。 debezium.max.queue.size.in.bytes int 0 数据缓存队列大小,默认为0,即表示缓存队列不考虑数据大小,只按照数据条数计算。在debezium.max.queue.size无法有效限制内存占用时,考虑显式设置该值来限制缓存数据的大小。
  • 使用前自检概览 当您在使用Migration服务创建实时同步任务前,需要预先检查是否做好了准备工作,以满足实时同步任务的环境要求。 表1 自检项 自检项 说明 需要执行的准备工作 为云账号及权限准备 准备华为账号,创建用户并授权使用Migration。 参考注册华为账号并开通华为云。 参考授权使用实时数据集成。 实时计算资源组准备 购买实时集成任务使用的计算资源,并关联到要使用的DataArts Studio工作空间。 参考购买数据集成资源组增量包。 参考实时集成资源组关联工作空间。 数据库准备 连接源和目标数据库以及对应连接账号权限准备。 说明: 建议创建单独用于Migration任务连接的数据库账号,避免因为账号修改导致的任务连接失败。 连接源和目标数据库的账号密码修改后,请尽快修改Migration任务中的连接信息,避免任务连接失败后的自动重试导致数据库账号被锁定,影响使用。 不同链路、数据库、权限要求不同,可参考以下链接,选择对应链路查看使用须知:使用教程。 连接准备 准备DataArts Studio管理中心数据连接。 说明: 数据连接配置中必须勾选数据集成选项。 数据连接中使用的Agent代理实际为CDM集群,所用集群建议升级至较新版本(24.4.0B030版本以上),以满足功能特性需求,详情请联系客服或技术支持人员。 参考创建DataArts Studio数据连接。 网络准备 数据库部署在本地IDC 参考数据库部署在本地IDC进行网络准备。 数据库部署在其他云 参考数据库部署在其他云进行网络准备。 数据库部署在华为云 参考数据库部署在华为云进行网络准备。 父主题: 数据集成(实时作业)
  • 概览 本章节汇总了基于Migration实时数据集成服务常见应用场景的操作指导,每个实践我们提供了详细的方案描述和操作指导,用于指导您快速实现数据库迁移和同步。 表1 Migration基础实践一览表 数据源分类 源端数据源 对应目的端数据源 相关文档 关系型数据 MySQL Hadoop:MRS Hudi MySQL同步到MRS Hudi作业配置 消息系统:DMS Kafka MySQL同步到Kafka作业配置 数据仓库:DWS MySQL同步到DWS作业配置 SQLServer Hadoop:MRS Hudi 说明: 该链路目前需申请白名单后才能使用。如需使用该链路,请联系客服或技术支持人员。 SQLServer同步到MRS Hudi作业配置 PostgreSQL 数据仓库:DWS 说明: 该链路目前需申请白名单后才能使用。如需使用该链路,请联系客服或技术支持人员。 PostgreSQL同步到DWS作业配置 Oracle 数据仓库:DWS 说明: 该链路目前需申请白名单后才能使用。如需使用该链路,请联系客服或技术支持人员。 Oracle同步到DWS作业配置 Hadoop:MRS Hudi 说明: 该链路目前需申请白名单后才能使用。如需使用该链路,请联系客服或技术支持人员。 Oracle同步到MRS Hudi作业配置 消息系统 DMS Kafka 对象存储:OBS DMS Kafka同步到OBS作业配置 Apache Kafka Hadoop:MRS Kafka 说明: 该链路目前需申请白名单后才能使用。如需使用该链路,请联系客服或技术支持人员。 Apache Kafka同步到MRS Kafka作业配置 父主题: 使用教程
  • 源端优化 Kafka抽取优化 可通过在源端配置中单击“Kafka源端属性配置”来添加Kafka优化配置。 图1 添加自定义属性 可使用的调优参数具体如下: 表1 全量阶段优化参数 参数名 类型 默认值 说明 properties.fetch.max.bytes int 57671680 消费Kafka时每次fetch请求返回的最大字节数。Kafka单条消息大的场景,可以适当调高每次获取的数据量,以提高性能。 properties.max.partition.fetch.bytes int 1048576 消费Kafka时服务器将返回的每个分区的最大字节数。Kafka单条消息大的场景,可以适当调高每次获取的数据量,以提高性能。 properties.max.poll.records int 500 消费者每次poll时返回的最大消息条数。Kafka单条消息大的场景,可以适当调高每次获取的数据量,以提高性能。
  • 目的端优化 DWS写入优化 可通过在DWS的目的端配置中修改写入相关配置,且可以通过单击高级配置的“查看编辑”按钮,添加高级属性。 图2 添加高级属性 表3 DWS写入优化参数 参数名 类型 默认值 说明 写入模式 enum UPSERT DWS的写入模式,可在目的端配置中设置,实时处理集成作业推荐使用COPY MODE。 UPSERT:为批量更新入库模式。 COPY:为DWS专有的高性能批量入库模式。 批写最大数据量 int 50000 DWS单次写入的最大条数,可在目的端配置中设置。 当缓存的数据达到“批写最大数据量”和“定时批写时间间隔”之一的条件时,触发数据写入。 单次写入条数增大可以减少请求DWS的次数,但可能导致单次请求时长增加,同时也可能导致缓存的数据增加进而影响内存使用。请综合考虑DWS规格和负载, 适当调整该值。 定时批写时间间隔 int 3 DWS单次写入的时间间隔,可在目的端配置中设置。 当缓存的数据达到定时批写时间间隔的条件,触发数据写入。 增大该值有助于增加单次写入时缓存的数据条数,但由于写入频率降低,会提升DWS数据可见的时延。 sink.buffer-flush.max-size int 512 DWS单次写入的数据大小,默认为512MB,可在目的端配置的高级配置中设置。 当缓存的数据达到数据大小限制时,触发数据写入。 与批写最大数据量类似,单次写入大小增大可以减少请求DWS的次数,但可能导致单次请求时长增加,同时也可能导致缓存的数据增加进而影响内存使用。请综合考虑DWS规格和负载, 适当调整该值。
共100000条