检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
问题定位 GPU插件的驱动版本较低,单独下载驱动安装后正常。 工作负载中未声明需要gpu资源。 建议方案 节点安装了gpu-beta(gpu-device-plugin)插件后,会自动安装nvidia-smi命令行工具。引起部署GPU服务报错通常是由于nvidia驱动安装失败,请排查nvidia驱动是否下载成功。
比较步骤2和步骤3的可用显存。 由于GPU厂商的驱动程序,本身就会占用一定量的物理显存,量级在300MB左右,这属于正常现象。例如Tesla T4配套510.47.03,驱动程序默认会占用280MiB;而该显存占用与厂商的驱动程序版本也有一定相关性,例如535系列驱动比470系列占用更多。 若发现
driver_version 是 String 插件安装驱动时,插件里负责安装驱动的Pod的镜像tag,一般与device_version相同 obs_url 是 String 当从默认驱动地址中下载GPU驱动时,该值为GPU的驱动地址 swr_addr 是 String 镜像仓库地址
oad/v45/hadoop-huaweicloud-3.1.1-hw-45.jar 复制华为云OBS jar包到相应目录。 cp hadoop-huaweicloud-3.1.1-hw-45.jar /root/spark-obs/jars/ 修改Spark配置项。为了对接OBS,需要为Spark添加对应的配置项。
v1.27 修复安装驱动的问题 2.0.46 v1.21 v1.23 v1.25 v1.27 支持535版本Nvidia驱动 支持非root用户使用XGPU 优化启动逻辑 2.0.44 v1.21 v1.23 v1.25 v1.27 支持535版本Nvidia驱动 支持非root用户使用XGPU
/etc/profile \ && echo "CLASSPATH=.:\$JAVA_HOME/lib/dt.jar:\$JAVA_HOME/lib/tools.jar" >> /etc/profile \ && chmod +x /root \ && chmod +x
默认值:"/usr/local/HiAI_unused" npu_driver_config 否 Map 如果自动在节点上安装NPU驱动,该参数key为机型,value为机型对应的NPU驱动的下载地址 默认值:{} 表5 resources字段数据结构说明 参数 是否必选 参数类型 描述 limitsCpu
19版本所做的变更说明。 资源变更与弃用 社区1.19 ReleaseNotes 增加对vSphere in-tree卷迁移至vSphere CSI驱动的支持。in-tree vSphere Volume插件将不再使用,并在将来的版本中删除。 apiextensions.k8s.io/v1
19版本所做的变更说明。 资源变更与弃用 社区1.19 ReleaseNotes 增加对vSphere in-tree卷迁移至vSphere CSI驱动的支持。in-tree vSphere Volume插件将不再使用,并在将来的版本中删除。 apiextensions.k8s.io/v1
选择是否自动安装驱动(仅插件版本为1.2.5及以上时支持)。 开启:可根据NPU机型不同指定相应的驱动版本,驱动维护更灵活。 根据不同的适用机型选择是否启用驱动,启用后插件将根据用户指定的驱动版本自动进行驱动安装。默认使用“推荐驱动”,您也可以选择“自定义驱动”并填写完整的驱动地址。 插
创建有状态负载(StatefulSet) 操作场景 在运行过程中会保存数据或状态的工作负载称为“有状态工作负载(statefulset)”。例如MySQL,它需要存储产生的新数据。 因为容器可以在不同主机间迁移,所以在宿主机上并不会保存数据,这依赖于CCE提供的高可用存储卷,将存
0-bin-scala_2.12\flink-1.20.0\examples\streamin”路径下是否有WordCount.jar包。 在Dashboard页面添加Jar包。打开Flink的Dashboard页面,在左侧菜单栏中单击“Submit New Job”,右上角单击“Add New”,选择“flink-1
初始化配置:比如集群里检测所有已经存在的成员节点,为主容器准备好集群的配置信息,这样主容器起来后就能用这个配置信息加入集群。 其它使用场景:如将Pod注册到一个中央数据库、下载应用依赖等。 更多内容请参见初始容器文档参考。 操作步骤 编辑initcontainer工作负载yaml文件。 vi deployment
适配CCE v1.27集群 1.2.6 v1.19 v1.21 v1.23 v1.25 支持NPU驱动自动安装 1.2.5 v1.19 v1.21 v1.23 v1.25 支持NPU驱动自动安装 1.2.4 v1.19 v1.21 v1.23 v1.25 适配CCE v1.25集群
RollingUpdate。 请检查NVIDIA_DRIVER_DOWNLOAD_URL字段是否与插件页面的GPU驱动版本一致,若不一致,请在页面上修改为正确的驱动版本。 父主题: 升级前检查异常问题排查
imagePullPolicy(可选):获取镜像的策略,可选值包括Always(每次都尝试重新下载镜像)、Never(仅使用本地镜像)、IfNotPresent(如果本地有该镜像,则使用本地镜像,本地不存在时下载镜像),默认为Always。 name(必选):容器名称。 必选 imagePullSecrets
对于之前使用xfs格式容器应用,需要注意底层文件存储格式变动影响(不同文件系统格式文件排序存在差异:如部分java应用引用某个jar包,但目录中存在多个版本该jar包,在不指定版本时实际引用包由系统文件排序决定)。 查看当前节点使用的Docker底层存储文件格式可采用docker info | grep
下载模板 功能介绍 下载模板 调用方法 请参见如何调用API。 URI GET /v2/charts/{chart_id}/archive 表1 路径参数 参数 是否必选 参数类型 描述 chart_id 是 String 模板的ID 请求参数 表2 请求Header参数 参数 是否必选
权限,也就是说该用户允许对集群以及所有命名空间中的全部资源进行完全控制。 使用IAM用户user-example登录CCE控制台,在集群中下载kubectl配置文件并连接集群,执行命令获取Pod信息,可以看到没有相关权限,同样也无查看其它资源的权限。这说明user-example
输入密钥对名称,勾选“我同意将密钥对私钥托管”和“我已经阅读并同意《密钥对管理服务免责声明》”,单击“确定”。 查看并保存私钥。为保证安全,私钥只能下载一次,请妥善保管,否则将无法登录节点。 创建集群和节点。 登录CCE控制台。在“集群管理”页面单击“购买集群”,选择需要创建的集群类型。