检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
服务部署、启动、升级和修改时,镜像不断重启如何处理? 问题现象 服务部署、启动、升级和修改时,镜像不断重启。 原因分析 容器镜像代码错误 解决方法 根据容器日志进行排查,修复代码,重新创建模型,部署服务。 父主题: 服务部署
问题现象 使用Conda安装Keras 2.3.1版本报错。 原因分析 可能是Conda网络不通,请使用pip install命令安装。 解决方法 执行 !pip install keras==2.3.1命令安装Keras。 父主题: 环境配置故障
NPU训练指导(6.3.910) 场景介绍 准备工作 预训练任务 SFT全参微调训练任务 LoRA微调训练 查看日志和性能 训练脚本说明 常见错误原因和解决方法 父主题: LLM大语言模型训练推理
NPU训练指导(6.3.909) 场景介绍 准备工作 预训练任务 SFT全参微调训练任务 LoRA微调训练 查看日志和性能 训练脚本说明 常见错误原因和解决方法 父主题: LLM大语言模型训练推理
NPU训练指导(6.3.907) 场景介绍 准备工作 预训练任务 SFT全参微调训练任务 LoRA微调训练 查看日志和性能 训练脚本说明 常见错误原因和解决方法 父主题: LLM大语言模型训练推理
ode-remote.remot-sdh’,它被报告存在问题”。 原因分析 Remote - SSH只能在开源的VSCode软件中使用。 解决方案 推荐使用开源VS Code软件。 父主题: VS Code连接开发环境失败故障处理
参见禁止容器获取宿主机元数据。 SSH登录机器后,检查NPU卡状态。运行如下命令,返回NPU设备信息。 npu-smi info # 在每个实例节点上运行此命令可以看到NPU卡状态 npu-smi info -l | grep Total
查询检索参数 参数 是否必选 参数类型 说明 status 否 String 作业状态的查询,默认为所有状态,例如查看创建失败的作业,可选的“status”为“3”|“5”|“6”|“13”,详细作业状态列表请查看作业状态参考。 per_page 否 Integer 指定每一页展示作业的总量
"agency_name_suffix" : "iam-user01" } 响应示例 状态码: 200 OK { "agency_name" : "ma_agency_iam-user01" } 状态码 状态码 描述 200 OK 400 Bad Request 401 Unauthorized
原因分析 Notebook是Linux环境,和Windows环境下的换行格式不同,Windows下是CRLF,而Linux下是LF。 解决方法 可以在Notebook中转换文件格式为Linux格式。 shell语言: dos2unix 文件名 父主题: 代码运行故障
"accepted_sample_count" : 0, "rejected_sample_count" : 0 } } 状态码 状态码 描述 200 OK 401 Unauthorized 403 Forbidden 404 Not Found 错误码 请参见错误码。
while getting xxx 问题现象 在Notebook中安装依赖包时报错,报错截图如下: 原因分析 pypi源没有这个包或源不可用。 解决方案 使用别的源下载。 pip install -i 源地址 包名 父主题: 环境配置故障
eagle投机小模型训练 附录:基于vLLM不同模型推理支持最小卡数和最大序列说明 附录:大模型推理常见问题 附录:工作负载Pod异常问题和解决方法 父主题: LLM大语言模型训练推理
project_id}/workflows/f1642618-43eb-4ab1-a0b1-9cc584182c60 响应示例 无 状态码 状态码 描述 204 OK 错误码 请参见错误码。 父主题: Workflow工作流管理
79d-24b05d997347 { "description" : "hahaha" } 响应示例 状态码: 200 No Content null 状态码 状态码 描述 200 No Content 错误码 请参见错误码。 父主题: 训练管理
在线服务预测报错ModelArts.4302 问题现象 在线服务部署完成且服务已经处于“运行中”的状态后,向运行的服务发起推理请求,报错ModelArts.4302。 原因分析及处理方法 服务预测报错ModelArts.4302有多种场景,以下主要介绍两种场景: "error_msg":
--logdir ./命令,报错[Errno 13] Permission denied……。 原因分析 当前目录下包含没有权限的文件。 解决方法 建议用户新建一个文件夹(例如:tb_logs),将tensorboard的日志文件(例如:tb.events)放到新建的文件夹下,然
url发送给他人使用,他人无法打开,报错“……lost token or incorrect token……”。 原因分析 原因是由于其他人没有此账号的令牌导致。 解决方案 在此url后面加上Notebook拥有者的token。 父主题: 实例故障
日志提示"write line error" 日志提示“No space left on device” OOM导致训练作业失败 常见的磁盘空间不足的问题和解决办法 父主题: 训练作业
content should be in [0,100]", "error_code": "ModelArts.0104" } 状态码 状态码请参见表1。 父主题: 可视化作业