检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
响应示例 无 状态码 状态码 描述 200 OK 401 Unauthorized 403 Forbidden 错误码 请参见错误码。 父主题: APP认证管理
max\n\nscheduler:\n type: FIFOScheduler" } 状态码 状态码 描述 200 ok 错误码 请参见错误码。 父主题: 训练管理
modprobe nvidia_uvm 方案2:安裝nvidia-modprobe。 apt-get install nvidia-modprobe 父主题: Lite Server
信息。若显示如图图4的内容,则配置成功。 kubectl cluster-info 图4 查看Kubernetes集群信息正确弹出内容 父主题: 准备工作
error_code String 调用失败时的错误码。调用成功时无此字段。 error_msg String 调用失败时的错误信息。调用成功时无此字段。 父主题: OBS管理
报错如下: 解决方案:复制页面的域名,添加到windows代理“请勿对以下列条目开头的地址使用代理服务器”中,然后保存就可以正常打开。 父主题: 实例故障
盘空间不足,请联系系统管理员,更换合适的规格。 如果是大模型导入的AI应用部署服务,请确保专属资源池磁盘空间大于1T(1000GB)。 父主题: 服务部署
训练作业一般需要运行一段时间,根据您的训练业务逻辑和选择的资源不同,训练时长将持续几十分钟到几小时不等。训练作业执行成功后,日志信息如下所示。 父主题: 单机多卡
验证infiniband驱动是否安装成功。 在训练代码中执行以下命令,如果无报错则infiniband驱动安装成功: os.system("ofed_info") 父主题: FAQ
Tool接口参考中的指导。 NPU上的网卡在哪里可以看到, 会健康检查吗? 8*NPU的网卡为机头上配置的四个2*100GE网卡。华为云有网卡健康状态监控机制。 父主题: Lite Server
删除网络 当AI业务开发不再需要使用网络时,您可以删除网络。 在“网络”页签,单击某个网络操作列的“删除”。 确认删除,单击“确定”即可。 父主题: 管理Standard专属资源池
在CCE上创建工作负载,创建工作负载时所需的yaml文件可参考在Lite Cluster资源池上使用Snt9B完成推理任务。 在CCE上创建服务。 父主题: AIGC模型训练推理
port IB网卡的端口号。 physical_state IB网卡每个端口的状态。 firmware_version IB网卡的固件版本。 父主题: ModelArts Standard资源监控
状态码 描述 204 删除成功。 400 参数非法。 401 鉴权失败。 403 权限不足。 404 资源不存在。 错误码 请参见错误码。 父主题: 开发环境管理
描述 200 OK 204 No Content 401 Unauthorized 403 Forbidden 错误码 请参见错误码。 父主题: 开发环境管理
状态码 描述 204 标签列表。 400 参数非法。 401 鉴权失败。 403 权限不足。 404 资源不存在。 错误码 请参见错误码。 父主题: 资源标签管理
检查本地Vscode是否为最新版,最新版可能有bug,建议使用推荐版本v1.82。 如果以上步骤排查均无问题仍未解决,请联系技术支持定位。 父主题: VS Code连接开发环境失败故障处理
module named xxx”的报错,请添加如下代码安装依赖包: import os os.system('pip install xxx') 父主题: 云上迁移适配故障
6的镜像却标记的是arm的系统架构。 可以通过查看AI应用详情看到配置的系统运行架构。基础镜像的系统架构详情可以参考推理基础镜像列表。 父主题: AI应用管理
如果在安装过程中报错提示缺少相应的依赖包,请根据报错提示执行如下命令进行依赖包安装。 pip install xxxx 其中,xxxx为依赖包的名称。 父主题: ModelArts CLI命令参考