检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
CDM集群的规格,按待迁移的数据量选择,一般选择cdm.medium即可,满足大部分迁移场景。 CDM集群的VPC必须和云搜索服务集群所在VPC一致,且推荐子网、安全组也与云搜索服务一致。 如果安全控制原因不能使用相同子网和安全组,那么需要确保安全组规则能允许CDM访问云搜索服务集群。 CDM
作业中目的连接为MRS Hudi连接时,目的端作业参数如表1所示。 表1 MRS Hudi作为目的端时的作业参数 通用配置 配置项 配置说明 推荐配置 目的连接名称 选择已配置的MRS Hudi连接。 hudi_to_cdm 数据库名称 输入或选择写入数据的数据库名称。单击输入框后面的按钮可进入数据库选择界面。
集群创建成功后,参考管理集群共享将该集群共享给其他工作空间。 可用区 选择数据服务专享集群所在的可用区。 支持单AZ和多AZ两种部署方式。推荐使用多AZ方式。 单AZ:仅可以选择1个AZ,集群节点部署在同一AZ上。 多AZ:可选择2-10个AZ,集群节点部署在不同AZ上,以提升集群的容灾能力。
DWS写入优化参数 参数名 类型 默认值 说明 写入模式 enum UPSERT DWS的写入模式,可在目的端配置中设置,实时处理集成作业推荐使用COPY MODE。 UPSERT:为批量更新入库模式。 COPY:为DWS专有的高性能批量入库模式。 批写最大数据量 int 50000
按需计费方式购买数据集成集群:按需计费方式比较灵活,可以即开即停,按实际使用时长计费。 套餐包方式购买数据集成集群:套餐包方式相对于按需计费更优惠,对于长期使用者,推荐该方式。 数据服务专享集群增量包 数据服务定位于标准化的数据服务平台,提供一站式数据服务开发、测试部署能力,实现数据服务敏捷响应,降低数据
columnList”这2个参数)。 导出作业的JSON文件到本地,在本地手动修改JSON文件中的参数后(原理同2相同),再导回CDM。 推荐使用方法1,下面以HBase导到DWS为例进行说明。 解决方法一:CDM的字段映射界面增加字段 获取源端HBase待迁移的表中所有的字段,列族与列之间用“:”分隔,例如:
如果通过DataArts Studio数据开发调度CDM迁移作业,此处也配置了定时任务,则两种调度均会生效。为了业务运行逻辑统一和避免调度冲突,推荐您启用数据开发调度即可,无需配置CDM定时任务。 否 抽取并发数 当前任务从源端进行读取最大线程数。 说明: 由于数据源限制,实际执行时并
开描述。 至此,基于电影评分的数据集成与开发流程示例完成。此外,您还可以根据原始数据,分析不同类型电影的评分、浏览情况等,为营销决策、广告推荐、用户行为预测等提供高质量的信息。 父主题: 初级版:基于DWS的电影评分数据集成与开发流程
若关联的SQL脚本,脚本参数发生变化,可单击刷新按钮同步。 脏数据表 否 SQL脚本中定义的脏数据表名称。 脏数据属性用户不能编辑,自动从SQL脚本内容中关联推荐。 DWS脏数据表的语法:with table_name或log into table_name 匹配规则 - 设置java正则表达式,匹配DWS
DLI程序包:作业执行前,会将资源包文件上传到DLI资源管理。 OBS路径:作业执行时,不会上传资源包文件到DLI资源管理,文件的OBS路径会作为启动作业消息体的一部分,推荐使用该方式。 分组设置 否 当“资源类型”选择“DLI程序包”时,才需要配置该参数。 将Spark程序资源包上传到指定的分组中,主Jar包和依赖包会上传到同一个分组中。
ntServices_region 仅当在数据开发组件作业中通过DLI Spark节点选择自定义镜像时,需要容器镜像服务中的镜像读取权限,推荐账号管理员通过镜像授权的方式为用户授予权限(SWR管理员权限账号登录容器镜像服务SWR控制台,在左侧导航栏选择“我的镜像”,进入所需自定义
单个分片的最大错误记录数 当“是否写入脏数据”为“是”才显示该参数。 单个map的错误记录超过设置的最大错误记录数则任务自动结束,已经导入的数据不支持回退。推荐使用临时表作为导入的目标表,待导入成功后再改名或合并到最终数据表。 0 单击“保存”,或者“保存并运行”。 作业任务启动后,每个待迁移的表
见如何配置对等连接章节。 注:如果配置了VPC对等连接,可能会出现对端VPC子网与CDM管理网重叠,从而无法访问对端VPC中数据源的情况。推荐使用公网做跨VPC数据迁移,或联系管理员在CDM后台为VPC对等连接添加特定路由。 当CDM集群与其他云服务所在的区域不一致时,则需要通过
设置节点执行的超时时间,如果节点配置了重试,在超时时间内未执行完成,该节点将会再次重试。 失败重试 如果作业执行失败,可选择自动重试三次或者不重试。推荐值:不重试。 建议仅对文件类作业或启用了导入阶段表的数据库作业配置自动重试,避免自动重试重复写入数据导致数据不一致。 说明: 如果通过DataArts
至此,基于电商BI报表的数据开发流程示例完成。此外,您还可以根据原始BI报表数据,分析用户的年龄分布、性别比例、商品评价情况、购买情况、浏览情况等,为营销决策、广告推荐、信用评级、品牌监控、用户行为预测等提供高质量的信息。 父主题: 免费版:基于DLI的电商BI报表数据开发流程
instance_name String 集群名。 intranet_host String 内网地址。 external_host String 外网地址。 domains Array of strings 网关域名。 表5 ApiPublishDTO 参数 参数类型 描述 id String
用户可以对已选择的作业名称进行删除并重新添加。 说明: 选择作业名称时,建议选择业务流程最下游的节点任务,选择后,影响该节点数据产出的上游节点都将被纳入基线监控范围,不推荐将业务流程上所有的任务都添加到基线上。 优先级 设置基线的优先级,支持以下优先级: 1 2 3 4 5 说明: 定义基线的优先级,数值越大
集已配置所选数据表中所有列的SELECT权限。 另外,导航树上的快速模式开启后,库表列的元数据会从数据目录获取,否则会从数据源获取元数据。推荐开启快速模式。 *已选择资源 在已选择资源列表中可查看所选的表、权限和审批人信息。 说明: 审批人默认来自权限集/角色的管理员。例如,如果
离线处理集成作业功能当前需申请白名单后才能使用。如需使用该特性,请联系客服或技术支持人员。 基础与网络连通配置 连接方式 是 选择所需的连接方式,推荐使用“通过代理连接”。 通过代理连接:通过Agent(即CDM集群)进行代理,以MRS集群的用户名和密码访问MRS集群。代理连接方式支持MRS所有版本的集群。
离线处理集成作业功能当前需申请白名单后才能使用。如需使用该特性,请联系客服或技术支持人员。 基础与网络连通配置 连接方式 是 选择所需的连接方式,推荐使用“通过代理连接”。 通过代理连接:通过Agent(即CDM集群)进行代理,以MRS集群的用户名和密码访问MRS集群。代理连接方式支持MRS所有版本的集群。