检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
节点不可达,k8sNode存在以下污点之一: node.kubernetes.io/unreachable node.kubernetes.io/not-ready A050203 Runtime 掉卡 AI正常卡数和实际容量不匹配。 检测到存在GPU或NPU掉卡情况。
npu-smi info # 在每个实例节点上运行此命令可以看到NPU卡状态 npu-smi info -l | grep Total # 在每个实例节点上运行此命令可以看到总卡数 如出现错误,可能是机器上的NPU设备没有正常安装,或者NPU
npu-smi info # 在每个实例节点上运行此命令可以看到NPU卡状态 npu-smi info -l | grep Total # 在每个实例节点上运行此命令可以看到总卡数 如出现错误,可能是机器上的NPU设备没有正常安装,或者NPU
npu-smi info # 在每个实例节点上运行此命令可以看到NPU卡状态 npu-smi info -l | grep Total # 在每个实例节点上运行此命令可以看到总卡数 如出现错误,可能是机器上的NPU设备没有正常安装,或者NPU
npu-smi info # 在每个实例节点上运行此命令可以看到NPU卡状态 npu-smi info -l | grep Total # 在每个实例节点上运行此命令可以看到总卡数 如出现错误,可能是机器上的NPU设备没有正常安装,或者NPU
{domain}/deep-learning/pytorch:2.1.0-cann7.0.0 #此处以华为云cn-north-4为例 sudo docker push swr.cn-north-4.myhuaweicloud.com/deep-learning/pytorch:2.1.0
limit 否 Integer 指定每一页返回的最大条目数,取值范围[1,100],默认为50。 order 否 String instance order start_time 否 String 开始时间,需要与结束时间一起传入。
npu-smi info # 在每个实例节点上运行此命令可以看到NPU卡状态 npu-smi info -l | grep Total # 在每个实例节点上运行此命令可以看到总卡数 如出现错误,可能是机器上的NPU设备没有正常安装,或者NPU
vpc_id String 实例所在虚拟私有云ID。 endpoints Array of EndpointsRes objects 服务器的私有IP信息。 image ServerImageResponse object 服务器镜像信息。
vpc_id String 实例所在虚拟私有云ID。 endpoints Array of EndpointsRes objects 服务器的私有IP信息。 image ServerImageResponse object 服务器镜像信息。
从本地VSCode连接云上的Notebook实例、提交训练作业等。 按需配置。
count 是 Integer 指定可用区扩容时,指定可用区的节点数。 表9 PoolDriver 参数 是否必选 参数类型 描述 gpuVersion 否 String GPU驱动版本,物理资源池中含有GPU规格时可填,例如:"440.33"。
Cat │ 10.wav │ 11.wav │ 12.wav │ └─Dog 1.wav 2.wav 3.wav 表格 支持从OBS导入csv文件,需要选择文件所在目录,其中csv文件的列数需要跟数据集
--workers:设置数据处理使用执行卡数量 / 启动的工作进程数。 --log-interval:是一个用于设置日志输出间隔的参数,表示输出日志的频率。在训练大规模模型时,可以通过设置这个参数来控制日志的输出。
--workers:设置数据处理使用执行卡数量 / 启动的工作进程数。 --log-interval:是一个用于设置日志输出间隔的参数,表示输出日志的频率。在训练大规模模型时,可以通过设置这个参数来控制日志的输出。
如果是首次在AI Gallery发布资产则此处会出现勾选“我已阅读并同意《华为云AI Gallery百模千态社区服务声明 》和《 华为云AI Gallery服务协议 》”选项,需要阅读并勾选同意才能正常发布资产。
表2 Query参数 参数 是否必选 参数类型 描述 limit 否 Integer 指定每一页返回的最大条目数,取值范围[1,100],默认为10。 offset 否 Integer 分页列表的起始页,默认为0。 order 否 String 排序方式。
npu-smi info # 在每个实例节点上运行此命令可以看到NPU卡状态 npu-smi info -l | grep Total # 在每个实例节点上运行此命令可以看到总卡数 如出现错误,可能是机器上的NPU设备没有正常安装,或者NPU
core_num Integer 核数。 表99 Gpu 参数 参数类型 描述 unit_num Integer gpu卡数。 product_name String 产品名。 memory String 内存。
count Integer 指定可用区扩容时,指定可用区的节点数。 表7 Taint 参数 参数类型 描述 key String 键。 value String 值。 effect String 作用效果。 表8 UserTag 参数 参数类型 描述 key String 键。