检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
命令样例如下: pip install krbcontext == 0.10 执行pip命令需要查看服务器安装的版本(有可能是pip3),执行如下命令进行查看: which pip 第二步:在执行任务的服务器上安装Impala客户端(也可以装整个MRS客户端)并上传Impala用户认证凭证 在
间。 结束时间:该参数是可选参数,表示停止自动执行的时间。如果不配置,则表示一直自动执行。 图3 重复周期为天 例如上图表示:从2023年1月1日0时0分开始第一次自动执行,每3天自动执行一次,配置一直有效。 周 CDM支持配置每几周执行一次作业。 重复周期(周):表示从开始时间起,每多少周执行一次定时任务。
当表的条数过多时,作业会划分较多的分片,从而占用过多的内存导致内存问题,请解决表的条数适当调整该值。 当scan.incremental.snapshot.backfill.skip为false时,实时处理集成作业会缓存单个分片的数据,此时分片越大,占用内存越多,引发内存溢出,在此场景下,可以考虑降低分片大小。
如果CDM需要访问本地数据源、Internet的数据源,或者跨VPC的云服务,则必须要为CDM集群绑定一个弹性IP,或者使用NAT网关让CDM集群与其他弹性云服务器共享弹性IP访问Internet,具体操作请见添加SNAT规则。 如果用户对本地数据源的访问通道做了SSL加密,则CDM无法通过弹性IP连接数据源。
当选择“自定义镜像”时,请选择自定义的镜像名称,版本号系统自动展示。您可以前往容器镜像服务进行设置。 作业运行资源 否 8核32G内存 16核64G内存 32核128G内存 作业主类 否 该参数表示作业的Java/Scala主类。 Spark程序资源包 是 该参数表示Spark程序依赖的资源包。
在本地数据中心或ECS上自建的MySQL。本教程为您介绍如何创建MySQL连接器。 前提条件 已获取连接MySQL数据库的IP地址、端口、数据库名称、用户名、密码,且该用户拥有MySQL数据库的读写权限。 本地MySQL数据库可通过公网访问。如果MySQL服务器是在本地数据中心或
如何降低CDM使用成本? 如果是迁移公网的数据上云,可以使用NAT网关服务,实现CDM服务与子网中的其他弹性云服务器共享弹性IP,可以更经济、更方便的通过Internet迁移本地数据中心或第三方云上的数据。 具体操作如下: 假设已经创建好了CDM集群(无需为CDM集群绑定专用弹性
CPU核数+Executor个数*Executor CPU核数 内存数=driver内存+(Executor个数*Executor内存) Executor内存 代表每个Executor的内存。通常建议Executor CPU核数:Executor内存=1:4。 GB输入值必须在0到16之间,MB输入值必须在0到16
管理中的“最大抽取并发数”参数,超出规格的Task排队等待运行。 如何调整抽取并发数 集群最大抽取并发数的设置与CDM集群规格有关,并发数上限建议配置为vCPU核数*2,如表1所示。 表1 集群最大抽取并发数配置建议 规格名称 vCPUs/内存 集群并发数上限参考 cdm.large
Oracle数据库连接参数 参数名 说明 取值样例 名称 连接的名称,根据连接的数据源类型,用户可自定义便于记忆、区分的连接名。 oracle_link 数据库服务器 配置为要连接的数据库的IP地址或域名。 192.168.0.1 端口 配置为要连接的数据库的端口。 默认端口:1521 数据库连接类型 选择Oracle数据库连接类型:
如何将云下内网或第三方云上的私网与CDM连通? 很多企业会把关键数据源建设在内网,例如数据库、文件服务器等。由于CDM运行在云上,如果要通过CDM迁移内网数据到云上的话,可以通过以下几种方式连通内网和CDM的网络: 如果目标数据源为云下的数据库,则需要通过公网或者专线打通网络。通
DM连接参数 参数名 说明 取值样例 名称 连接的名称,根据连接的数据源类型,用户可自定义便于记忆、区分的连接名。 dm_link 数据库服务器 配置为要连接的数据库的IP地址或域名。 单击输入框后的“选择”,可获取用户的DWS、RDS等实例列表。 192.168.0.1 端口 配置为要连接的数据库的端口。
实例类型 目前数据集成集群支持以下部分规格供用户选择: cdm.large:大规格,8核CPU、16G内存的虚拟机,最大带宽/基准带宽为3/0.8 Gbps,集群作业并发数上限为16。 cdm.xlarge:超大规格,16核CPU、32G内存的虚拟机,最大带宽/基准带宽为10/4 G
实时处理集成作业 1分钟 作业CPU使用率 展示用户Flink作业的CPU使用率 ≥ 0% 实时处理集成作业 1分钟 作业内存使用率 展示用户Flink作业的内存使用率 ≥ 0% 实时处理集成作业 1分钟 作业最大算子时延 展示用户Flink作业的最大算子时延时间,单位ms ≥ 0ms
当表的条数过多时,作业会划分较多的分片,从而占用过多的内存导致内存问题,请解决表的条数适当调整该值。 当scan.incremental.snapshot.backfill.skip为false时,实时处理集成作业会缓存单个分片的数据,此时分片越大,占用内存越多,引发内存溢出,在此场景下,可以考虑降低分片大小。
作业名称不符合规则,将导致提交MRS作业失败。 运行模式 是 配置Spark作业的运行模式。 批处理:指Spark作业为批模式运行,节点会一直等待Spark作业执行完成才结束。 流处理:指Spark作业为流处理运行模式,节点执行时只要作业启动成功即执行成功。后续每次周期运行时检查
若关联的SQL脚本,脚本参数发生变化,可单击刷新按钮同步。 运行模式 是 配置Flink作业的运行模式。 批处理:指Flink作业为批模式运行,节点会一直等待Flink作业执行完成才结束。 流处理:指Flink作业为流处理运行模式,节点执行时只要作业启动成功即执行成功。后续每次周期运行时检查
名称 连接的名称,根据连接的数据源类型,用户可自定义便于记忆、区分的连接名。 dds_link 服务器列表 服务器地址列表,输入格式为“数据库服务器域名或IP地址:端口”。多个服务器列表间以“;”分隔。 192.168.0.1:7300;192.168.0.2:7301 数据库名称
medium vCPUs/内存:4核 8GB 集群数量:1个 规格名称:cdm.large vCPUs/内存:8核 16GB 集群数量:1个 规格名称:cdm.xlarge vCPUs/内存:16核 32GB 集群数量:1个 规格名称:cdm.xlarge vCPUs/内存:16核 32GB
连接到文件服务器时出错。 连接到文件服务器时出错。 请联系客服或技术支持人员协助解决。 Cdm.0413 400 向文件服务器传输数据时出错。 向文件服务器传输数据时出错。 请联系客服或技术支持人员协助解决。 Cdm.0415 400 从文件服务器下载文件出错。 从文件服务器下载文件出错。