检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
在CCE集群中部署使用Caffe 预置条件 资源准备 Caffe分类范例 父主题: 批量计算
在CCE集群中部署使用Spark 安装Spark 使用Spark on CCE 父主题: 批量计算
在CCE集群中部署使用Kubeflow Kubeflow部署 Tensorflow训练 使用Kubeflow和Volcano实现典型AI训练任务 父主题: 批量计算
在CCE控制台上同样可以管理节点的污点,且可以批量操作。 登录CCE控制台,单击集群名称进入集群。 在集群控制台左侧导航栏中选择“节点管理”,切换至“节点”页签,勾选目标节点,并单击左上方“标签与污点管理”。 在弹出的窗口中,在“批量操作”下方单击“新增批量操作”,然后选择“添加/更新”或“删除”,选择“K8S
使用Service实现简单的灰度发布和蓝绿发布 使用Nginx Ingress实现灰度发布和蓝绿发布 DNS相关实践 自建IDC与CCE集群共享域名解析 CoreDNS配置优化实践 父主题: 网络
监控CoreDNS运行状态 CoreDNS通过标准的Promethues接口暴露出解析结果等健康指标,发现CoreDNS服务端甚至上游DNS服务器的异常。 CoreDNS自身metrics数据接口,默认zone侦听{$POD_IP}:9153,请保持此默认值,否则普罗无法采集coredns
对于此类问题,您需要添加容器和节点网段到白名单。具体白名单的设置步骤,请在对应服务的帮助文档中查找。 域名解析 当访问外部域名时,Pod先使用集群的域名解析功能解析被访问目标的地址,后经过Pod侧的网络策略再进行访问,此时可能出现域名无法解析的情况,常见的报错有: Name or service not known。
集群安全组配置正确性 集群资源规划合理性 租户配额是否充足 资源与业务层面 存储插件(everest)健康程度 日志采集插件(log-agent)健康程度 域名解析插件(coredns)健康程度 业务节点负载情况 业务节点状态 Pod配置健康程度 Pod负载情况 Pod运行状态 更多内容请参见诊断项及修复方案。
x √ √ 查询集群列表 √ √ √ 查询集群详情 √ √ √ 添加节点 x √ √ 删除节点/批量删除节点 x √ √ 更新节点,如更新节点名称 x √ √ 查询节点详情 √ √ √ 查询节点列表 √ √ √ 查询任务列表(集群层面的job) √ √ √ 删除任务/批量删除任务(集群层面的job)
使用Spark on CCE 使用Spark的Kubernetes调度程序spark-submit,可以将Spark应用程序提交到Kubernetes集群中运行,详情请参见在Kubernetes上运行Spark。使用spark-submit提交Spark应用程序的工作原理如下:
节点池批量扩缩容节点时,Kubernetes Event事件存在部分缺失 问题现象 节点池批量扩缩容节点时,Kubernetes Event事件存在部分缺失。 例如,集群中批量缩容10个节点,CCE打印了10次“删除节点”事件,但是Kubernetes仅打印了4次“缩容空闲节点启动”的Event事件。
工作负载网络异常时,如何定位排查? 负载均衡类型Service异常问题排查 集群内部无法使用ELB地址访问负载 集群外部访问Ingress异常 CCE集群中域名解析失败 为什么访问部署的应用时浏览器返回404错误码? 为什么容器无法连接互联网? VPC的子网无法删除,怎么办? 如何修复出现故障的容器网卡?
如何批量修改集群node节点安全组? 约束与限制 一个安全组关联的实例数量建议不超过1000个,否则可能引起安全组性能下降。更多关于安全组的限制请参考安全组限制。 操作步骤 登录VPC控制台,并在左上角选择区域和项目。 在左侧导航树选择“访问控制 > 安全组”。 在安全组界面,单击操作列的“管理实例”。
)中,Ps和Worker可以利用本机网络提供传输效率,缩短训练时间。 Volcano批量调度系统:加速AI计算的利器 Volcano是一款构建于Kubernetes之上的增强型高性能计算任务批量处理系统。作为一个面向高性能计算场景的平台,它弥补了Kubernetes在机器学习、深
Ingress中配置的证书配套。 创建证书时,未指定域名 通过curl命令测试时报错信息如下: SSL: unable to obtain common name from peer certificate 请在创建证书时指定域名。 访问的域名和HTTPS证书的域名不一致 通过curl命令测试时报错信息如下:
谨慎调整VPC和虚拟机的DNS配置 CoreDNS启动时会默认从部署的实例上获取resolve.conf中的DNS配置,作为上游的解析服务器地址,并且在CoreDNS重启之前不会再重新加载节点上的resolve.conf配置。建议: 保持集群中各个节点的resolve.conf配
指定Access-Control-Allow-Origin响应头的值,表示允许访问的域。 支持以下取值: 通配符*:表示允许所有域名访问。 配置域名列表:必须为http://或者https://开头的域名,支持填写一级泛域名。格式为“http(s)://example.com”或“http(s)://example
节点池弹性扩缩容开关 节点池启用弹性扩缩容后,autoscaler插件将基于上下限、缩容冷却时间、节点池扩容优先级、弹性伸缩场景配置,由autoscaler解析并限制客户端弹性伸缩决策。 参数名 取值范围 默认值 是否允许修改 作用范围 .spec.autoscaling.enable TRUE/FALSE
隔。 同时支持使用通配符,例如: “*”表示允许所有域访问。 填写一级泛域名,如“http(s)://*.example.com”表示允许该域名下的所有子域名访问。 须知: 出于安全考虑,建议指定确切的域名,防止未经授权的域访问敏感资源。 nginx.ingress.kubernetes
所属实例:选择企业版仓库实例,您需要提前购买一个企业版仓库,详情请参见购买仓库。 域名:企业版仓库支持配置多个自定义域名,您可以选择采用默认域名或自定义域名。关于自定义域名的操作详情请参见域名管理。 如果需要使用第三方镜像,可直接输入镜像地址,但需同时保证使用的镜像访问凭证可访问镜像仓库,详情请参见使用第三方镜像。