检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
训练脚本说明参考 训练参数配置说明【旧】 训练tokenizer文件说明 断点续训和故障快恢说明 父主题: 主流开源大模型基于Lite Cluster适配ModelLink PyTorch NPU训练指导(6.3.912)
常见错误原因和解决方法 显存溢出错误 网卡名称错误 工作负载Pod异常 mc2融合算子报错 父主题: 主流开源大模型基于Lite Cluster适配ModelLink PyTorch NPU训练指导(6.3.912)
执行训练任务 执行训练任务(推荐) 执行训练任务(历史版本) 父主题: 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导(6.3.912)
import moxing as mox mox.file.shift('os', 'mox') # 将os的open操作替换为mox.file.File适配OBS路径的操作 param = {'encoding': 'utf-8'} path = 'xxx.csv' with open(path
#tokenizer目录,需要用户手动创建,后续操作步骤中会提示 |── Llama2-70B |── model #原始权重与tokenizer目录,需要用户手动创建,后续操作步骤中会提示 |── Llama2-70B
String 用户项目ID。获取方法请参见获取项目ID和名称。 表2 Query参数 参数 是否必选 参数类型 描述 user_id 否 String 用户ID,当user_id为all时,表示删除所有IAM子用户的授权。 请求参数 无 响应参数 无 请求示例 删除指定用户的授权 DELETE
Session鉴权 (可选)Session鉴权 用户名密码认证模式 用户AK-SK认证模式
服务管理 服务管理概述 在开发环境中部署本地服务进行调试 部署在线服务 查询服务详情 推理服务测试 查询服务列表 查询服务对象列表 更新服务配置 查询服务监控信息 查询服务日志 删除服务
导入任务管理 查询导入任务列表 创建导入任务 查询导入任务状态 父主题: 数据管理
训练管理 训练作业 资源和引擎规格接口
续费 续费概述 手动续费 自动续费
功能介绍 Standard功能介绍 MaaS大模型即服务平台功能介绍 Lite Cluster&Server介绍 AI Gallery功能介绍
图解ModelArts 初识ModelArts 初识Workflow
准备数据 数据集版本发布失败 数据集版本不合格 父主题: 自动学习
部署上线 部署上线失败 父主题: 自动学习
GPU相关问题 日志提示"No CUDA-capable device is detected" 日志提示“RuntimeError: connect() timed out” 日志提示“cuda runtime error (10) : invalid device ordinal
推理部署 模型管理 服务部署 服务预测
使用自定义镜像创建Notebook后打开没有kernel 用户自定义镜像自建的conda环境会查到一些额外的包,影响用户程序,如何解决? 用户使用ma-cli制作自定义镜像失败,报错文件不存在(not found) 用户使用torch报错Unexpected error from
专属资源池创建训练作业 创建训练作业界面无云存储名称和挂载路径排查思路 父主题: 训练作业
训练作业运行失败 训练作业运行失败排查指导 训练作业运行失败,出现NCCL报错 自定义镜像训练作业失败定位思路 使用自定义镜像创建的训练作业一直处于运行中 使用自定义镜像创建训练作业找不到启动文件 训练作业的监控内存指标持续升高直至作业失败 订阅算法物体检测YOLOv3_ResN