检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
登录异常节点,备份文件 。 cp /var/lib/cloud/data/instance-id /tmp/instance-id cp /var/paas/conf/server.conf /tmp/server.conf 登录异常节点,将获取的节点ID写入文件。 echo "节点ID"
environment variables CLOUD_SDK_AK and CLOUD_SDK_SK in the local environment ak = os.environ["CLOUD_SDK_AK"] sk = os.environ["CLOUD_SDK_SK"]
度的支持,在推理场景增加GPU Share等特性的支持,进一步提升kubeflow批量训练和推理的效率。 实现典型分布式AI训练任务 下面将展示如何基于Kubeflow和Volcano,并使用MNIST数据集轻松的完成数字图像分类模型的分布式训练。 登录CCE控制台,单击集群名称进入一个集群。
网络异常问题排查 工作负载网络异常时,如何定位排查? 负载均衡类型Service异常问题排查 集群内部无法使用ELB地址访问负载 集群外部访问Ingress异常 CCE集群中域名解析失败 为什么访问部署的应用时浏览器返回404错误码? 为什么容器无法连接互联网? VPC的子网无法删除,怎么办?
environment variables CLOUD_SDK_AK and CLOUD_SDK_SK in the local environment ak = os.environ["CLOUD_SDK_AK"] sk = os.environ["CLOUD_SDK_SK"]
com/gpu资源的工作负载)。 在工作负载中声明nvidia.com/gpu资源(即配置nvidia.com/gpu为小数,例如0.5)时将通过虚拟化GPU提供,实现GPU显存隔离,按照设定值的百分比为容器分配GPU显存(例如分配0.5×16GiB=8GiB的GPU显存,该数值需
否采用强制模式,默认:false。强制模式下插件Deployment实例强制调度到不同可用区的节点上,如集群下节点不满足多可用区,插件实例将无法全部运行。若multiAZEnable与multiAZBalance配置也同时为true,则以multiAZBalance为准使用多可用部署均分模式。
environment variables CLOUD_SDK_AK and CLOUD_SDK_SK in the local environment ak = os.environ["CLOUD_SDK_AK"] sk = os.environ["CLOUD_SDK_SK"]
描述 swr_addr 是 String 插件下载地址,无需指定 swr_user 是 String 插件下载用户,无需指定 platform 是 String 插件平台,无需指定 escEndpoint 是 String ecs地址,无需指定 表3 flavor 参数 是否必选 参数类型
A下,如果节点池中没有满足条件的节点,Pod将无法被调度。 restricted:Pod调度时会选择拓扑管理策略已经设置为restricted节点池的节点,且CPU需要放置在相同的NUMA集合下,如果节点池中没有满足条件的节点,Pod将无法被调度。 best-effort:Pod
无法纳管原因 解决方案 操作指导 规格不一致 将云服务器规格修改成节点池中包含的规格。 修改云服务器的规格 虚拟私有云和子网不一致 将云服务器所在的虚拟私有云和子网修改成节点池相同的虚拟私有云和子网。 修改云服务器的虚拟私有云和子网 计费模式不一致 将云服务器的计费模式修改成与节点池的计费模式一致。
-----END CERTIFICATE----- 导入证书。 新建TLS密钥时,对应位置导入证书及私钥文件即可。 验证 通过浏览器访问Ingress地址可以正常访问,但因为是自己签发的证书和密钥,所以CA不认可,显示不安全。 图2 验证结果 父主题: 安全加固
开启CPU Burst 约束与限制 集群版本:CCE Turbo集群且集群版本为v1.23.5-r0及以上。 OS版本:Huawei Cloud EulerOS 2.0。 集群中需要安装Volcano 1.9.0及以上版本的插件,且开启混合部署开关。 操作步骤 登录CCE控制台,单击集群名称进入集群。
否采用强制模式,默认:false。强制模式下插件Deployment实例强制调度到不同可用区的节点上,如集群下节点不满足多可用区,插件实例将无法全部运行。若multiAZEnable与multiAZBalance配置也同时为true,则以multiAZBalance为准使用多可用部署均分模式。
调整CoreDNS部署状态 合理配置CoreDNS 更多CoreDNS配置,详见CoreDNS官网:https://coredns.io/ CoreDNS开源社区地址:https://github.com/coredns/coredns 前提条件 已创建一个CCE集群,具体操作步骤请参见购买Standard/Turbo集群。
多可用区,插件实例将无法全部运行。节点故障后,插件实例存在无法迁移风险。 节点亲和 不配置:插件实例不指定节点亲和调度。 指定节点调度:指定插件实例部署的节点。若不指定,将根据集群默认调度策略进行随机调度。 指定节点池调度:指定插件实例部署的节点池。若不指定,将根据集群默认调度策略进行随机调度。
emptyDir:一种简单的空目录,主要用于临时存储。 hostPath:将主机某个目录挂载到容器中。 ConfigMap、Secret:特殊类型,将Kubernetes特定的对象类型挂载到Pod,在ConfigMap和Secret章节介绍过如何将ConfigMap和Secret挂载到Volume中。
返回一个资源特征与地址的列表用于用户终端(例如:浏览器)选择。 301 Moved Permanently 永久移动,请求的资源已被永久的移动到新的URI,返回信息会包括新的URI。 302 Found 资源被临时移动。 303 See Other 查看其它地址。 使用GET和POST请求查看。
非标网段可能引入集群网络不通等风险) 集群外域名: 确定是否为自建DNS(容器如果未走coredns或者节点DNS非本region云解析的地址均属自建) coredns到自建DNS网络是否正常,工作负载到自建DNS的网络是否正常,如不正常: 请打通到自建DNS网络 请确保DNS的
ervice所处的命名空间。 Pod访问集群外部域名时,优先使用FQDN类型域名访问,这类域名通过常见域名最后加半角句号(.)的方式来指定地址,可以避免search搜索域拼接带来的多次无效搜索,例如需要访问www.huaweicoud.com,则优先使用FQDN类型域名www.huaweicoud