检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
在每个实例节点上运行此命令可以看到NPU卡状态 npu-smi info -l | grep Total # 在每个实例节点上运行此命令可以看到总卡数 如出现错误,可能是机器上的NPU设备没有正常安装,或者NPU镜像被其他容器挂载。请先正常安装NPU设备和驱动,或释放被挂载的NPU。 检查containerd是否安装。
usage Object 请求输入长度、输出长度和总长度。 当调用失败时,可以根据错误码调整脚本或运行环境。 表3 常见错误码 错误码 错误内容 说明 400 Bad Request 请求包含语法错误。 403 Forbidden 服务器拒绝执行。 404 Not Found 服务器找不到请求的网页。
描述 200 OK 201 Created 401 Unauthorized 403 Forbidden 404 Not Found 错误码 请参见错误码。 父主题: 开发环境管理
输出配置。 表6 WorkflowErrorInfo 参数 参数类型 描述 error_code String 错误码。 error_message String 错误信息。 表7 WorkflowStepExecutionPolicy 参数 参数类型 描述 execution_policy
表2 失败响应参数说明 参数 参数类型 描述 error_code String 调用失败时的错误码。 调用成功时无此字段。 error_msg String 调用失败时的错误信息。 调用成功时无此字段。 父主题: OBS管理
通过OBS创建AI应用时,构建日志中提示pip下载包失败 通过自定义镜像创建AI应用失败 导入AI应用后部署服务,提示磁盘不足 创建AI应用成功后,部署服务报错,如何排查代码问题 自定义镜像导入配置运行时依赖无效 通过API接口查询AI应用详情,model_name返回值出现乱码 导入AI应用提示模型或镜像大小超过限制
和创建AI应用任务下发成功,但最终AI应用创建失败。 创建AI应用时直接报错或者是调用API报错。一般都是输入参数不合法导致的。您可以根据提示信息进行排查修改即可。 创建AI应用任务下发成功,但最终AI应用创建失败。需要从以下几个方面进行排查: 在AI应用详情页面,查看“事件”页
我的凭证 在“我的凭证”页面,选择“访问密钥>新增访问密钥”,如图3所示。 图3 单击新增访问密钥 填写该密钥的描述说明,单击“确定”。根据提示单击“立即下载”,下载密钥。 图4 新增访问密钥 密钥文件会直接保存到浏览器默认的下载文件夹中。打开名称为“credentials.csv
OBS中。 Step10 通过openssl创建SSL pem证书 在ECS中执行如下命令,会在当前目录生成cert.pem和key.pem,并将生成的pem证书上传至OBS。证书用于后续在推理生产环境中部署HTTPS推理服务。 openssl genrsa -out key.pem
响应Body参数 参数 参数类型 描述 error_code String ModelArts错误码。 error_msg String 具体错误信息。 请求示例 创建节点池。 POST https://{endpoint}/v2/{project_id}/pools/{pool_name}/nodepools
h NPU训练指导(6.3.908) 场景介绍 准备工作 预训练 SFT全参微调训练 LoRA微调训练 查看日志和性能 训练脚本说明 常见错误原因和解决方法 父主题: LLM大语言模型训练推理
GPU相关问题 日志提示"No CUDA-capable device is detected" 日志提示“RuntimeError: connect() timed out” 日志提示“cuda runtime error (10) : invalid device ordinal
h NPU训练指导(6.3.907) 场景介绍 准备工作 预训练 SFT全参微调训练 LoRA微调训练 查看日志和性能 训练脚本说明 常见错误原因和解决方法 父主题: LLM大语言模型训练推理
} 状态码 状态码 描述 200 OK 401 Unauthorized 403 Forbidden 404 Not Found 错误码 请参见错误码。 父主题: 数据管理(旧版)
h NPU训练指导(6.3.909) 场景介绍 准备工作 预训练 SFT全参微调训练 LoRA微调训练 查看日志和性能 训练脚本说明 常见错误原因和解决方法 父主题: LLM大语言模型训练推理
h NPU训练指导(6.3.909) 场景介绍 准备工作 预训练 SFT全参微调训练 LoRA微调训练 查看日志和性能 训练脚本说明 常见错误原因和解决方法 父主题: LLM大语言模型训练推理
表6 WorkflowErrorInfo 参数 是否必选 参数类型 描述 error_code 否 String 错误码。 error_message 否 String 错误信息。 表7 WorkflowStepExecutionPolicy 参数 是否必选 参数类型 描述 execution_policy
NPU训练指导(6.3.909) 场景介绍 准备工作 预训练任务 SFT全参微调训练任务 LoRA微调训练 查看日志和性能 训练脚本说明 常见错误原因和解决方法 父主题: LLM大语言模型训练推理
NPU训练指导(6.3.907) 场景介绍 准备工作 预训练任务 SFT全参微调训练任务 LoRA微调训练 查看日志和性能 训练脚本说明 常见错误原因和解决方法 父主题: LLM大语言模型训练推理
h NPU训练指导(6.3.907) 场景介绍 准备工作 预训练 SFT全参微调训练 LoRA微调训练 查看日志和性能 训练脚本说明 常见错误原因和解决方法 父主题: LLM大语言模型训练推理