检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
适配CCE v1.27集群 1.2.6 v1.19 v1.21 v1.23 v1.25 支持NPU驱动自动安装 1.2.5 v1.19 v1.21 v1.23 v1.25 支持NPU驱动自动安装 1.2.4 v1.19 v1.21 v1.23 v1.25 适配CCE v1.25集群 1.2
EVS 在EVS控制台,单击具体云硬盘,进入详情页,在“标签”Tab页添加标签。 OBS 在OBS控制台,单击具体OBS桶,进入详情页,在“基础配置 > 标签”页添加标签。 SFS-turbo 在SFS控制台,单击具体SFS-turbo实例,进入详情页,在“标签”Tab页添加标签。 ELB
建后sock文件重新挂载,可恢复正常。 通常K8S集群用户基于如下场景在容器中使用上述sock文件: 监控类应用,以DaemonSet形式部署,通过sock文件连接Docker/Containerd,获取节点容器状态信息。 编译平台类应用,通过sock文件连接Docker/Containerd,创建程序编译用容器。
开始,因为最近200秒中仅错过了3个调度(示例中一个调度周期为1分钟)。 解决方法 如果想要解决这个问题,可以在定时任务的CronJob中配置参数:startingDeadlineSeconds。该参数只能使用kubectl命令,或者通过API接口进行创建或修改。 YAML示例如下:
匹配。 关于Kubernetes容忍度的详细说明,请参见污点和容忍度。 因此,需要修改工作负载的yaml,还原tolerations为默认配置如下: tolerations: - key: node.kubernetes.io/not-ready
当节点池进行手动扩缩容时,您可选择指定的规格进行伸缩。当选择的节点规格资源不足或配额不足时,会导致扩容失败。 设置优先级 关于如何设置节点池规格优先级详情请参见配置集群弹性伸缩策略。 父主题: 节点弹性伸缩
间,无法使用。 存储池不支持缩容和删除。 如果删除节点上存储池的磁盘,会导致存储池异常。 导入存储池 创建节点时导入 在创建节点时,在存储配置中可以为节点添加数据盘,选择“作为临时存储卷”导入存储池,详情请参见创建节点。 图1 导入临时卷 手动导入 如果创建节点时没有导入临时存储
小于100/条/月、邮件数量小于1000/封/月的,推送免费。其中短信条数计算规则请参见短信内容长度计算规则。 收费场景 监控中心:集群内配置的除基础指标以外的自定义指标(基础指标不收费)会根据AOM的收费规则进行收费。详情请参见计费项。 日志中心:对超出每月免费限额(500MB
命名空间使用实践 按照不同环境划分命名空间 一般情况下,工作负载发布会经历开发环境、联调环境、测试环境,最后到生产环境的过程。这个过程中不同环境部署的工作负载相同,只是在逻辑上进行了定义。分为两种做法: 分别创建不同集群。 不同集群之间,资源不能共享。同时,不同环境中的服务互访需要通过负载均衡才能实现。
在CCE集群中部署使用Kubeflow Kubeflow部署 Tensorflow训练 使用Kubeflow和Volcano实现典型AI训练任务 父主题: 批量计算
器名称的修改将无法同步到CCE控制台。更多说明请参见云服务器名称、节点名称与K8s节点名称说明。 不支持同步数据:操作系统、镜像ID、磁盘配置。 同步单个云服务器 登录CCE控制台,单击集群名称进入集群。 在集群控制台左侧导航栏中选择“节点管理”,切换至“节点”页签。 找到目标节点,单击节点后的“更多
间,无法使用。 存储池不支持缩容和删除。 如果删除节点上存储池的磁盘,会导致存储池异常。 导入存储池 创建节点时导入 在创建节点时,在存储配置中可以为节点添加数据盘,选择“作为持久存储卷”导入存储池,详情请参见创建节点。 手动导入 如果创建节点时没有导入持久存储卷,或当前存储卷容量不够,可以进行手动导入。
+服务端口都能访问到后端工作负载,当Pod不在接收请求的节点上时,请求会再跳转到Pod所在的节点,带来一定性能损失。 Service有一个配置参数(externalTrafficPolicy),用于设置Service是否希望将外部流量路由到节点本地或集群范围的端点,示例如下: apiVersion:
x86节点不支持tcp drop监控项。 安装插件 登录CCE控制台,单击CCE Turbo集群名称进入集群,单击左侧导航栏的“插件中心”,在右侧找到CCE容器网络扩展指标插件,单击“安装”。 在安装插件页面,查看插件配置。 当前该插件无可配置参数。 单击“安装”。 待插件安装完成后,选择对应的集群
检查工作负载副本扩容是否正常。 Pod 待机失败 FailedStandBy 次要 检查Pod待机是否成功。 Pod 更新配置失败 FailedReconfig 次要 检查Pod更新配置是否成功。 Pod 激活失败 FailedActive 次要 检查Pod是否激活成功。 Pod 回滚失败 FailedRollback
检查项二解决方案 重新创建DefaultBackend Service。 如果安装插件时,在“默认404服务”配置项中指定了自定义的DefaultBackend Service,请您自行重新创建相同的Service。 如果安装插件时使用默认的DefaultBackend Service,则重新创建的YAML示例如下。
Kubeflow部署成功后,使用ps-worker的模式来进行Tensorflow训练就变得非常容易。本节介绍一个Kubeflow官方的Tensorflow训练范例,您可参考TensorFlow Training (TFJob)获取更详细的信息。 创建MNIST示例 部署TFJob资源以开始训练。
在CCE集群中部署使用Caffe 预置条件 资源准备 Caffe分类范例 父主题: 批量计算
在CCE集群中部署使用Spark 安装Spark 使用Spark on CCE 父主题: 批量计算
公网带宽:按流量计费 带宽:5 Mbit/s 1 0.32元/小时+公网流量费用0.80元/GB(按照您实际使用的出云流量收取流量费) 父主题: 在CCE中安装部署Jenkins