检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
开发环境 环境配置故障 实例故障 代码运行故障 JupyterLab插件故障 VS Code连接开发环境失败故障处理 自定义镜像故障 其他故障
准备数据 数据集版本发布失败 数据集版本不合格 父主题: 自动学习
部署上线 部署上线任务提交失败 部署上线失败 父主题: 自动学习
GPU相关问题 日志提示"No CUDA-capable device is detected" 日志提示“RuntimeError: connect() timed out” 日志提示“cuda runtime error (10) : invalid device ordinal
实例故障 创建Notebook失败,查看事件显示JupyterProcessKilled 创建Notebook实例后无法打开页面,如何处理? 使用pip install时出现“没有空间”的错误 出现“save error”错误,可以运行代码,但是无法保存 单击Notebook的打开按钮时报
通用问题 ModelArts中提示OBS路径错误 进行OBS操作时,出现Error: 403 Forbidden错误?
推理部署 AI应用管理 服务部署 服务预测
自定义镜像故障 镜像保存时报错“there are processes in 'D' status, please check process status using 'ps -aux' and kill all the 'D' status processes”或“Buildimge
专属资源池创建训练作业 创建训练作业界面无云存储名称和挂载路径排查思路 父主题: 训练作业
准备工作 准备环境 准备代码 准备数据 准备镜像 父主题: 主流开源大模型基于DevServer适配ModelLink PyTorch NPU训练指导(6.3.908)
主流开源大模型基于DevServer适配LlamaFactory PyTorch NPU训练指导(6.3.909) 场景介绍 准备工作 执行训练任务 查看日志和性能 训练脚本说明 附录:训练常见问题 父主题: LLM大语言模型训练推理
准备工作 准备环境 准备代码 准备镜像环境 准备数据(可选) 父主题: 主流开源大模型基于DevServer适配LlamaFactory PyTorch NPU训练指导(6.3.909)
训练脚本说明 Yaml配置文件参数配置说明 模型NPU卡数、梯度累积值取值表 各个模型训练前文件替换 NPU_Flash_Attn融合算子约束 BF16和FP16说明 录制Profiling 父主题: 主流开源大模型基于DevServer适配LlamaFactory PyTorch
常见错误原因和解决方法 显存溢出错误 网卡名称错误 工作负载Pod异常 父主题: 主流开源大模型基于Lite Cluster适配PyTorch NPU训练指导(6.3.909)
训练管理 创建算法 查询算法列表 查询算法详情 更新算法 删除算法 获取支持的超参搜索算法 创建训练作业 查询训练作业详情 更新训练作业描述 删除训练作业 终止训练作业 查询训练作业指定任务的日志(预览) 查询训练作业指定任务的日志(OBS链接) 查询训练作业指定任务的运行指标 查询训练作业列表
授权管理 查看授权列表 配置授权 删除授权 创建ModelArts委托
数据管理(旧版) 查询数据集列表 创建数据集 查询数据集详情 更新数据集 删除数据集 查询数据集的统计信息 查询数据集监控数据 查询数据集的版本列表 创建数据集标注版本 查询数据集版本详情 删除数据集标注版本 查询样本列表 批量添加样本 批量删除样本 查询单个样本信息 获取样本搜索条件
训练管理(旧版) 训练作业 训练作业参数配置 可视化作业 资源和引擎规格接口 作业状态参考 父主题: 历史API
训练作业 创建训练作业 查询训练作业列表 查询训练作业版本详情 删除训练作业版本 查询训练作业版本列表 创建训练作业版本 停止训练作业版本 更新训练作业描述 删除训练作业 获取训练作业日志的文件名 查询预置算法 查询训练作业日志 父主题: 训练管理(旧版)
资源和引擎规格接口 查询作业资源规格 查询作业引擎规格 父主题: 训练管理(旧版)