检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
great security risks. It is recommended that the AK and SK be stored in ciphertext in configuration files or environment variables and decrypted
证书管理”界面找到该证书,在证书描述字段中找到对应的secret_id。 图1 查询证书 该secret_id即为集群中对应Secret的metadata.uid字段,可以根据该uid查询集群中Secret的名称。 您可以通过以下kubectl命令进行查询,其中<secret_id>请自行替换。 kubectl
API版本信息 查询API版本信息列表 父主题: API
切换至“异构资源配置”页签,开启“GPU虚拟化”。 集群默认驱动:集群中GPU节点默认使用的GPU驱动版本。如果选择“自定义驱动链接地址”,则需填写Nvidia驱动的下载链接,详情请参见获取驱动链接-公网地址。 节点池自定义驱动:若您不希望集群中的所有GPU节点使用相同的驱动,CCE支持以节点池为单位安装不同
--master:集群的API Server,其中https://**.**.**.**:5443为 ~/.kube/config中使用的master地址,可通过kubectl cluster-info获取。 --deploy-mode: cluster:在集群的工作节点上部署驱动程序。 c
配额管理 查询CCE服务下的资源配额 父主题: API
取到账号ID。账号ID获取步骤如下: 注册并登录管理控制台。 单击用户名,在下拉列表中单击“我的凭证”。 在“API凭证”页面的项目列表中查看账号ID。 图1 获取账号ID 父主题: 附录
volcano containers: - image: <your_image_address> # 请替换为您的镜像地址 name: container-0 resources: requests:
在界面右侧的安全组列表中找到集群的安全组。单击“入方向规则”页签,单击“添加规则”,添加入方向规则如下。 集群类型 ELB类型 放通安全组 协议端口 放通源地址网段 CCE Standard 共享型ELB 节点安全组,名称规则默认是{集群名}-cce-node-{随机ID} 如果集群中绑定了自定义的节点安全组,请根据实际进行选择。
为什么更换命名空间后无法创建Ingress? 问题描述 在default命名空间下可以正常创建ingress,但在其他命名空间(如:ns)下创建时不能创建成功。 原因分析 创建弹性负载均衡ELB后,使用default命名空间创建80端口的http监听,在CCE中只允许在本命名空间
若日志近期没有报错,且仍然出现OOM,则参考以下步骤进行处理: 进入“日志中心”,单击“展开日志条数统计图”查看日志统计图。若上报的日志组日志流不是默认日志组日志流,则单击“全局日志查询”页签,选择上报的日志组和日志流后进行查看。 图10 查看日志统计 根据统计图中的柱状图,计算每秒上报的日志量,检查是否超过当前规格的日志采集性能。
使用Prometheus监控多个集群 使用dcgm-exporter监控GPU指标 将Prometheus监控数据上报至第三方监控平台 通过PromQL语句查询Prometheus数据
插件管理 创建AddonInstance 查询AddonTemplates列表 更新AddonInstance 回滚AddonInstance 删除AddonInstance 获取AddonInstance详情 获取AddonInstance列表 父主题: API
great security risks. It is recommended that the AK and SK be stored in ciphertext in configuration files or environment variables and decrypted
cce-secret.yaml 创建完成后可以查询到密钥。 kubectl get secret -n default 相关操作 密钥创建完成后,您还可以执行表2中的操作。 密钥列表中包含系统密钥资源,系统密钥资源不可更新,也不能删除,只能查看。 表2 其他操作 操作 说明 编辑YAML
如何选择GPU节点驱动版本请参见选择GPU节点驱动版本。 记录当版本驱动状态。根据CCE AI套件(NVIDIA GPU)插件版本差异,查询驱动的命令如下: 1.x.x版本执行: /opt/cloud/cce/nvidia/bin/nvidia-smi 2.0.0-2.5.3版
事件 查看PVC或PV的事件名称、事件类型、发生次数、Kubernetes事件、首次和最近发生的时间,便于定位问题。 在左侧导航栏选择“存储”,在右侧选择“存储卷声明”或“存储卷”页签。 单击目标实例操作列的“事件”,即可查看1小时内的事件(事件保存时间为1小时)。 查看YAML
选择“无状态负载”页签,单击已创建工作负载后的“监控”。在监控页面,可查看工作负载的CPU利用率和物理内存使用率。 图1 查看无状态工作负载监控 单击工作负载名称,可在“实例列表”中单击某个实例的“监控”按钮,查看相应实例的CPU使用率、内存使用率。 日志 您可以通过“日志”功能查看无状态工作负载、有状态工作负载、守
Master使用容器化镜像部署在CCE集群中。 Jenkins Agent配置。 Jenkins可以在集群中创建固定Agent,也可以使用pipeline与CCE的对接,动态提供Agent Pod。其中动态Agent还需要使用Kubernetes相关插件配置集群认证信息及用户权限。
deviceMountPath 文件存储的共享路径。 获取方法:在CCE控制台,单击顶部的“服务列表 > 存储 > 弹性文件服务”,在弹性文件服务列表中可以看到“挂载地址”列,即为文件存储的共享路径,如图1。 volumeID 文件存储的ID。 获取方法:在CCE控制台,单击左侧栏目树中的“资源管理-存储管