检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
yaml 命令中的yaml名称是示例,请以实际步骤2和步骤3创建的pv和pvc的yaml名字为准。 进入应用更新升级界面:更新升级 - 高级设置 - 数据存储 - 云存储。 卸载老存储,同时添加CSI格式的PVC的云存储,容器内挂载路径和以前保持一致,实现存储迁移。 单击提交,确认后升级生效。
7-r2及以上版本集群开启了RBAC功能。 创建IAM用户和用户组 使用账号登录IAM,在IAM中创建一个名为user-example的IAM用户和名为cce-role-group的用户组,如下所示。创建IAM用户和用户组的具体步骤请参见创建IAM用户和创建用户组。 创建后给cce-role-group用户组授予CCE
cci_address 是 String CCI的访问地址和端口。 如:https://cci.***.com:443 euleros_version 是 String 欧拉OS的版本,固定为:2.2.5 iam_address 是 String IAM的访问地址和端口。 如:https://iam.***
区能力基本一致。 使用CCE,您需要创建集群和节点,简单、低成本、高可用,无需管理Master节点。 CCI提供 Serverless Container引擎,在华为云上部署容器时,您不需要购买和管理ECS,可以直接在华为云上运行容器和Pod,为您省去底层ECS的运维和管理工作。
新建配置项所在的命名空间。若不选择,默认为default。 描述 配置项的描述信息。 配置数据 配置项的数据。 键值对形式,单击添加。其中值支持String、JSON和YAML格式。 标签 配置项的标签。键值对形式,输入键值对后单击“确认添加”。 配置完成后,单击“确定”。 工作负载配置列表中会出现新创建的工作负载配置。
任务管理和业务构建发布,但可能存在一定的生产安全风险。 一种是Master加Agent模式。Master节点主要是处理调度构建作业,把构建分发到Agent实际执行,监视Agent的状态。业务构建发布的工作交给Agent进行,即执行Master分配的任务,并返回任务的进度和结果。
高频常见问题 集群管理 CCE集群创建失败的原因与解决方法? 集群的管理规模和控制节点的数量有关系吗? 当集群状态为“不可用”时,如何排查解决? 节点及节点池 集群可用但节点状态为“不可用”如何解决? 如何收集CCE集群中节点的日志? thinpool磁盘空间耗尽导致容器或节点异常时,如何解决?
将本账号的VPC资源共享给其他账号使用。例如,租户A可以将自己账号下创建的VPC和子网共享给租户B。在租户B接受共享以后,租户B账号下可以查看到该共享子网及其所属的共享VPC,并可以使用该共享子网和共享VPC创建资源,如CCE Turbo集群。详情请参见共享VPC概述。 使用场景
节点池视图 从节点池视角呈现节点池资源的占用和分配情况,帮助您详细了解节点池的负载状态。 指标说明 节点池视图暴露的指标如下: 图1 节点池资源指标 表1 视图说明 图表名称 单位 说明 节点池CPU分配率 百分比 节点池里的所有节点的Pod CPU Request总量占所有节点CPU总量的比例
效。目前许多企业选择自建Kubernetes集群,但是自建集群往往有着沉重的运维负担,需要运维人员自己配置管理系统和监控解决方案,伴随而来的就是企业人力成本的上升和效率的降低。 在性能方面,自建集群的规模固定,可扩展性又比较弱,在业务流量高峰期无法实现自适应的弹性扩缩容,很容易出
基于Prometheus指标的弹性伸缩实践 Kubernetes默认的HPA策略只支持基于CPU和内存的自动伸缩,在复杂的业务场景中,仅使用CPU和内存使用率指标进行弹性伸缩往往无法满足日常运维需求。为此,CCE提供云原生监控插件(kube-prometheus-stack),可
删除子目录时,仅删除PVC参数中设置的子目录绝对路径,不会级联删除上层目录。 单击“创建”,将同时为您创建存储卷声明和存储卷。 您可以在左侧导航栏中选择“存储”,在“存储卷声明”和“存储卷”页签下查看已经创建的存储卷声明和存储卷。 通过kubectl命令行动态创建SFS Turbo子目录 使用kubectl连接集群。
弹性扩容策略 遵循节点池优先级和规格优先级的原则弹性扩容。 预判规格筛选: 通过预判算法,在所有节点池中选择能满足Pending状态的Pod正常调度的规格。 考虑因素包括节点资源是否满足Pod的Request值,以及nodeSelector、nodeAffinity和taints等是否满足Pod正常调度的条件。
com/gpu等价于开启虚拟化GPU显存隔离,可以和显存隔离模式(即设置volcano.sh/gpu-mem.128Mi资源)的工作负载共用一张GPU卡,但不支持和算显隔离模式负载(即同时设置volcano.sh/gpu-mem.128Mi和volcano.sh/gpu-core.pe
控制台访问异常问题排查 访问容器组日志时报错 若您在查看容器组日志时遇到该问题,而集群其他资源均可正常访问,您可以按以下步骤排查。 登录CCE控制台,单击集群名称进入集群。 选择左侧导航栏的“工作负载”,查看工作负载容器组运行状态是否为“运行中”,若不是,请根据工作负载状态异常定位方法进行排查。
统,可以做到秒级甚至毫秒级的启动时间。大大节约开发、测试和部署的时间。 一致的运行环境。 容器镜像提供了完整的运行时环境,确保应用运行环境的一致性。从而不会再出现“这段代码在我机器上没问题”这类问题。 更轻松地迁移、维护和扩展。 容器确保了执行环境的一致性,使得应用迁移更加容易。
暴露JobManager的Rest和UI端口的Service jobmanager-service.yaml 暴露Flink JobManager的REST和Web UI端口,使用户可以通过该Service访问JobManager的REST API和Web UI。 配置Flink集群的基本信息。
8版本的jdk。并且应用对接MongoDB,均需要提前获取。 此处请根据您应用的实际情况,下载应用所需的依赖环境。 下载对应版本的Tomcat、JDK和MongoDB。 下载JDK 1.8版本。 下载地址:https://www.oracle.com/java/technologies/jdk8-downloads
到2个GPU。但是TFJob1和TFJob2均需要4块GPU卡才能运行起来。这样TFJob1和TFJob2处于互相等待对方释放资源,这种死锁情况造成了GPU资源的浪费。 亲和调度问题 分布式训练中,Ps和Worker存在很频繁的数据交互,所以Ps和Worker之间的带宽直接影响了训练的效率。
谨慎调整VPC和虚拟机的DNS配置 CoreDNS启动时会默认从部署的实例上获取resolve.conf中的DNS配置,作为上游的解析服务器地址,并且在CoreDNS重启之前不会再重新加载节点上的resolve.conf配置。建议: 保持集群中各个节点的resolve.conf配