检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
安全的数据获取和数据发布能力。如果没有这些数据治理工具,元数据缺失,湖里的数据质量就没法保障,最终会由数据湖变质为数据沼泽。 随着大数据和AI的发展,数据湖中数据的价值逐渐水涨船高,价值被重新定义。数据湖能给企业带来多种能力,例如实现数据的集中式管理,帮助企业构建更多优化后的运营
块,进入数据开发页面。 在数据开发主界面的左侧导航栏,选择“数据开发 > 作业开发”。 在作业目录中选择需要复制的作业,右键单击作业名称,选择“拷贝另存为”。 图1 复制作业 在弹出的“另存为”页面,配置如表1所示的参数。 表1 作业目录参数 参数 说明 作业名称 自定义作业的名
数据开发页面。 在数据开发主界面的左侧导航栏,选择“数据开发 > 脚本开发”。 在脚本目录中选择需要复制的脚本,右键单击脚本名称,选择“拷贝另存为”。 图1 复制脚本 在弹出的“另存为”页面,配置如表1所示的参数。 表1 脚本目录参数 参数 说明 脚本名称 脚本的名称,只能包含字
jobmanager的处理内存,直接影响堆内存大小。 说明: 该配置会占用总体资源,影响新增其他作业,非必要不配置。 taskmanager.memory.process.size int 3686MB taskmanager的处理内存,直接影响堆内存大小。 说明: 该配置会占用
使用大规格CDM集群 不同规格的CDM集群网卡带宽、集群最大抽取并发数等有所差异。如果您有较高的迁移速度需求,或当前CDM集群的CPU使用率、磁盘使用率、内存使用率等指标经常在较高区间运行,建议您选用大规格的CDM集群规格进行数据迁移。 使用多个CDM集群 包含但不限于以下情况时,建议您使用多个
信息,并修改集群的配置。 查看集群基本信息: 集群信息:集群版本、创建时间、项目ID、实例ID和集群ID等。 节点配置:集群规格、CPU和内存配置等信息。 网络信息:网络配置。 支持修改集群的以下配置: 消息通知:CDM的迁移作业(目前仅支持表/文件迁移的作业)失败时,或者EIP
单击“启动每日备份”,打开“OBS文件浏览”页面,选择OBS文件夹,设置备份数据的存储位置。 图1 备份管理 每日备份在每日0点开始备份昨日的所有作业、脚本、资源和环境变量,启动当日不会备份昨日的作业、脚本、资源和环境变量。 选择OBS存储路径时,若仅选择至桶名层级,则备份对象自动存储
Studio数据集成模块中的CDM集群,执行自动实时监控、告警和通知操作。用户可以实时掌握集群运行中所产生的网络流入速率、网络流出速率、CPU使用率、内存使用率、磁盘利用率、失败作业率等信息。 关于DataArts Studio支持的监控指标,以及如何创建监控告警规则等内容,请参见查看监控指标。
CPU核数+Executor个数*Executor CPU核数 内存数=driver内存+(Executor个数*Executor内存) Executor内存 代表每个Executor的内存。通常建议Executor CPU核数:Executor内存=1:4。 GB输入值必须在0到16之间,MB输入值必须在0到16
创建API时提示代理调用失败,怎么办? 可能原因 数据连接中的CDM代理异常,例如内存占用过高等。 解决方案 短期内建议您在空余时间对CDM集群进行重启,长期措施需降低CDM集群的工作负载。 父主题: 数据服务
单击“开发API > API管理”页面,进入API管理页面。 勾选待复制的API所在行,在API列表上方,选择“更多 > 复制”,弹出复制窗口。 在弹出的窗口中输入新API的名称和请求path,单击确认即可完成API复制。 图1 复制API 父主题: 管理API
执行Analyze语句可能会对Hive造成压力。 是 内部写队列内存最大值 当出现内存不足场景时,请酌情修改该参数,当参数过小时,会影响迁移速率。 取值范围是1-128,默认为空,不做限制,单位为MB,超出范围会设置为不限制。 16 内部转换队列内存最大值 当出现内存不足场景时,请酌情修改该参数,当参数过小时,会影响迁移速率。
如何备份CDM作业? 问题描述 如何备份CDM作业? 解决方案 用户可以先通过CDM的批量导出功能,把所有作业脚本保存到本地,在需要的时候再重新创建集群、重新导入作业,实现作业备份。 父主题: 数据集成(CDM作业)
DataArts Studio实例中的CDM没有计费是什么原因? 购买非免费版的DataArts Studio实例时,系统会赠送一个4核CPU、8G内存规格CDM集群,不会产生费用。 注意,DataArts Studio实例赠送的CDM集群,推荐作为DataArts Studio管理中心数
medium vCPUs/内存:4核 8GB 集群数量:1个 规格名称:cdm.medium vCPUs/内存:4核 8GB 集群数量:1个 规格名称:cdm.large vCPUs/内存:8核 16GB 集群数量:1个 规格名称:cdm.xlarge vCPUs/内存:16核 32GB
说明 配置样例 定时备份 自动备份功能的开关,该功能只备份作业,不会备份连接。 开 备份策略 所有作业:不管作业处于什么状态,CDM会备份所有表/文件迁移作业、整库迁移的作业。不备份历史作业。 分组作业:选择备份某一个或多个分组下的作业。 所有作业 备份周期 选择备份周期: 日:每天零点执行一次。
当表的条数过多时,作业会划分较多的分片,从而占用过多的内存导致内存问题,请解决表的条数适当调整该值。 当scan.incremental.snapshot.backfill.skip为false时,实时处理集成作业会缓存单个分片的数据,此时分片越大,占用内存越多,引发内存溢出,在此场景下,可以考虑降低分片大小。
当表的条数过多时,作业会划分较多的分片,从而占用过多的内存导致内存问题,请解决表的条数适当调整该值。 当scan.incremental.snapshot.backfill.skip为false时,实时处理集成作业会缓存单个分片的数据,此时分片越大,占用内存越多,引发内存溢出,在此场景下,可以考虑降低分片大小。
当表的条数过多时,作业会划分较多的分片,从而占用过多的内存导致内存问题,请解决表的条数适当调整该值。 当scan.incremental.snapshot.backfill.skip为false时,实时处理集成作业会缓存单个分片的数据,此时分片越大,占用内存越多,引发内存溢出,在此场景下,可以考虑降低分片大小。
CPU使用率 该指标用于统计测量对象的CPU使用率。 单位:%。 0%~100% CDM集群实例 1分钟 mem_usage 内存使用率 该指标用于统计测量对象的内存使用率。 单位:%。 0%~100% CDM集群实例 1分钟 pg_pending_job 排队作业数 该指标用于统计该