检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
NPU训练指导(6.3.909) 场景介绍 准备工作 预训练任务 SFT全参微调训练任务 LoRA微调训练 查看日志和性能 训练脚本说明 常见错误原因和解决方法 父主题: LLM大语言模型训练推理
NPU训练指导(6.3.910) 场景介绍 准备工作 预训练任务 SFT全参微调训练任务 LoRA微调训练 查看日志和性能 训练脚本说明 常见错误原因和解决方法 父主题: LLM大语言模型训练推理
NPU训练指导(6.3.907) 场景介绍 准备工作 预训练任务 SFT全参微调训练任务 LoRA微调训练 查看日志和性能 训练脚本说明 常见错误原因和解决方法 父主题: LLM大语言模型训练推理
h NPU训练指导(6.3.907) 场景介绍 准备工作 预训练 SFT全参微调训练 LoRA微调训练 查看日志和性能 训练脚本说明 常见错误原因和解决方法 父主题: LLM大语言模型训练推理
PyTorch NPU训练指导(6.3.911) 场景介绍 准备工作 预训练 SFT全参微调训练 LoRA微调训练 查看日志和性能 训练脚本说明 常见错误原因和解决方法 父主题: LLM大语言模型训练推理
} 状态码 状态码 描述 200 OK 401 Unauthorized 403 Forbidden 404 Not Found 错误码 请参见错误码。 父主题: 数据管理(旧版)
"algorithm_names" : [ "AutoCompress" ] } ] } 状态码 状态码 描述 200 ok 错误码 请参见错误码。 父主题: 训练管理
Client与服务端连接30S内无响应,超过超时时间,服务端断开了连接。 处理方法 如果是限流问题,日志中还会出现如下报错,OBS相关的错误码解释请参见OBS官方文档,这种情况建议提工单。 [ModelArts Service Log]2021-01-21 11:35:42,178
制有效。 表2 失败相应说明 参数 参数类型 描述 error_code String 调用失败时的错误码。调用成功时无此字段。 error_msg String 调用失败时的错误信息。调用成功时无此字段。 父主题: OBS管理
usage Object 请求输入长度、输出长度和总长度。 当调用失败时,可以根据错误码调整脚本或运行环境。 表3 常见错误码 错误码 错误内容 说明 400 Bad Request 请求包含语法错误。 403 Forbidden 服务器拒绝执行。 404 Not Found 服务器找不到请求的网页。
} 状态码 状态码 描述 200 OK 401 Unauthorized 403 Forbidden 404 Not Found 错误码 请参见错误码。 父主题: 数据管理(旧版)
PyTorch NPU训练指导(6.3.910) 场景介绍 准备工作 预训练 SFT全参微调训练 LoRA微调训练 查看日志和性能 训练脚本说明 常见错误原因和解决方法 父主题: LLM大语言模型训练推理
failed_reasons字段数据结构说明 参数 参数类型 说明 code String 错误码。 message String 错误信息。 detail Map<String,String> 错误详情。 表19 workspace字段数据结构说明 参数 参数类型 描述 id String
NPU训练指导(6.3.911) 场景介绍 准备工作 预训练任务 SFT全参微调训练任务 LoRA微调训练 查看日志和性能 训练脚本说明 常见错误原因和解决方法 父主题: LLM大语言模型训练推理
输出配置。 表9 WorkflowErrorInfo 参数 参数类型 描述 error_code String 错误码。 error_message String 错误信息。 表10 WorkflowStepExecutionPolicy 参数 参数类型 描述 execution_policy
mode: max\n\nscheduler:\n type: FIFOScheduler" } 状态码 状态码 描述 200 ok 错误码 请参见错误码。 父主题: 训练管理
Notebook无法执行代码,如何处理? 运行训练代码,出现dead kernel,并导致实例崩溃 如何解决训练过程中出现的cudaCheckError错误? 如何处理使用opencv.imshow造成的内核崩溃? 使用Windows下生成的文本文件时报错找不到路径? 创建Notebook文件后,右上角的Kernel状态为“No
状态码:400 表6 响应Body参数 参数 参数类型 描述 error_code String ModelArts错误码。 error_msg String 具体错误信息。 请求示例 GET https://endpoint/v2/{project_id}/training-jo
"events" : [ "*:failed,completed", "job_step:stop" ] } 状态码 状态码 描述 201 OK 错误码 请参见错误码。 父主题: Workflow工作流管理
16.24.51-01909681.log?AWSAccessKeyId=xxxxx" } 状态码 状态码 描述 200 ok 错误码 请参见错误码。 父主题: 训练管理