检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
pull + docker tag + docker push。 当源仓库字段中不包含tag时,表示将该仓库所有tag同步到目标仓库,此时目标仓库不能包含tag。 当源仓库字段中包含tag时,表示只同步源仓库中的一个tag到目标仓库,如果目标仓库中不包含tag,则默认使用源tag。 当
资源基础监控包含CPU/内存/磁盘等指标数据,您可以全面监控集群的健康状态和负荷程度,具体请参见监控概述。您可以在CCE控制台从集群、节点、工作负载等维度查看这些监控指标数据,也可以在AOM中查看。 自定义指标 CCE支持采集应用程序中的自定义指标并上传到AOM,为您提供个性化的监控服务。您可以根据特定业务需求,扩
API变更与弃用 CCE对Kubernetes 1.30版本的增强 参考链接 新增特性及特性增强 Webhook匹配表达式(GA) 在Kubernetes1.30版本中,Webhook匹配表达式特性进阶至GA。此特性允许对准入Webhook支持根据特定的条件进行匹配,更细粒度地控制Webhoo
create -f pvc-evs-example.yaml 执行成功后,可以在“资源管理 > 存储管理”的云硬盘存储中查看创建的PVC,也可以在EVS页面根据名称查看EVS云硬盘。 (可选)增加集群关联的metadata,确保在删除节点或集群时避免删除已挂载的静态PV关联的EVS盘。
问题现象 节点池的状态一直处于“扩容中”,但是“操作记录”里面没有看到有对应创建节点的记录。 原因排查: 检查如下问题并修复: 租户是否欠费。 查看节点池配置的规格是否资源不足。 租户的ECS或内存配额是否不足。 如果一次创建节点太多,可能会出现租户的ECS容量校验不过的情况发生。 解决方案:
PVC按照社区逻辑实现,PVC本身的定义是存储声明,与底层存储解耦,不负责感知底层存储细节,因此没有感知底层存储故障的能力。 云监控服务CES 具备查看云服务监控指标的能力:云监控服务基于云服务自身的服务属性,已经内置了详细全面的监控指标。当用户在云平台上开通云服务后,系统会根据服务类型自
yum install docker-ce 执行以下命令,查看Docker安装版本。 docker version Client: Version: 17.12.0-ce API Version:1.35 …… Version字段表示版本号。 获取运行环境 本例是tomcat类型的web应用,需要7
作节点继承。 如果将dnsPolicy设置为“ClusterFirst”,则DNS查询将发送到kube-dns服务。 对于以配置的集群域后缀为根的域的查询将由kube-dns服务应答。所有其他查询(例如,www.kubernetes.io)将被转发到从节点继承的上游名称服务器。在
API变更与弃用 CCE对Kubernetes 1.30版本的增强 参考链接 新增特性及特性增强 Webhook匹配表达式(GA) 在Kubernetes1.30版本中,Webhook匹配表达式特性进阶至GA。此特性允许对准入Webhook支持根据特定的条件进行匹配,更细粒度地控制Webhoo
重启容器。 docker restart container_id 重启后查看日志中的时区是否与节点同一时区。 查看方法:单击工作负载名称进入工作负载详情页,单击右上角的“日志”按钮可查看日志详情。日志约需要等待5分钟查看。 场景三:工作负载与节点时区同步 方法一:制作容器镜像时,将时区设置为CST。
BS存储盘的outputimg下,可以看到推理使用的图片。 登录在集群中添加GPU节点添加的节点,执行docker logs {容器id}查看归类结果,可以看到结果:tabby cat。 使用GPU 创建一个普通job,镜像输入第三方镜像bvlc/caffe:gpu,设置对应的容器规格。
您可以执行以下步骤确认GPU插件的升级目标版本与当前驱动配置。 登录CCE控制台,前往“插件中心”处查看CCE AI套件(NVIDIA GPU)插件。 单击该插件的“升级”按钮,查看插件目标版本及驱动版本。 在测试环境验证安装升级目标版本的GPU插件,并配置当前GPU驱动后,测试创建节点是否正常使用。
CCE的云原生告警能力是由AOM服务提供的,支持指标和事件的告警。同时,CCE集群详情中增加了告警中心能力,能支持快速配置资源等常用告警和告警查看。 图1 告警中心架构 告警中心 基于AOM服务的告警能力实现,提供集群内的告警快速检索、告警快速配置的能力。用户可以通过告警中心一键配置常用的告警规则。
GPU驱动版本(Tesla 396.37),按照目前NVIDIA官方公告判断暂不受影响;如果您自行安装或更新过节点上的NVIDIA GPU驱动,则可能存在该漏洞。 表1 漏洞信息 漏洞类型 CVE-ID 漏洞级别 披露/发现时间 权限提升 CVE-2021-1056 中 2021-01-07 漏洞影响 按
务手动删除。 弹性负载均衡资源 前往弹性负载均衡控制台。 通过集群使用的VPC ID进行过滤,得到该虚拟私有云下所有的弹性负载均衡实例。 查看负载均衡实例下的监听器详情,描述中包含集群ID、Service ID等信息,说明该监听器由此集群创建。 您可以根据上述信息将集群下残留的弹性负载均衡相关资源删除。
配额管理 查询CCE服务下的资源配额 父主题: API
群内的节点以及运行的业务都将销毁,请务必及时续费或开通自动续费。 登录CCE控制台,在左侧导航栏中选择“集群管理”。 找到需要续费的集群,查看集群的更多操作,并单击“续费”。 图1 续费集群 在弹出的“续费”页面中,根据系统提示进行续费操作。 您已选择操作的资源(高亮显示)和其他资源有关联关系,请确认是否同时操作。
工作负载异常:GPU节点部署服务报错 问题现象 在CCE集群的GPU节点上部署服务出现如下问题: 容器无法查看显存。 部署了7个GPU服务,有2个是能正常访问的,其他启动时都有报错。 2个是能正常访问的CUDA版本分别是10.1和10.0 其他服务CUDA版本也在这2个范围内 在
/bin/ 安装Kubeflow 您可以参考以下步骤安装所有Kubeflow官方组件。成功安装所有内容后,您可以访问Kubeflow中央仪表板,详情请参见连接Kubeflow。 安装Kubeflow 1.7.0版本。 wget https://github.com/kubeflo
- name: default-secret 执行以下命令,创建应用。 kubectl apply -f gpu-app.yaml 登录容器查看容器被分配显存总量。 kubectl exec -it gpu-app -- nvidia-smi 预期输出: Thu Jul 27 07:53:49