检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
常见错误原因和解决方法 显存溢出错误 网卡名称错误 父主题: 主流开源大模型基于Standard+OBS+SFS适配PyTorch NPU训练指导(6.3.911)
主流开源大模型基于DevServer适配LlamaFactory PyTorch NPU训练指导(6.3.911) 场景介绍 准备工作 执行训练任务 查看日志和性能 训练benchmark工具 训练脚本说明 附录:训练常见问题 父主题: LLM大语言模型训练推理
计费模式 ModelArts计费模式概述 包年/包月 按需计费 套餐包
计费FAQ 如何查看ModelArts中正在收费的作业? 如何查看ModelArts消费详情? 如果不再使用ModelArts,如何停止收费? 为什么项目删除完了,仍然还在计费? 欠费后,ModelArts的资源是否会被删除? ModelArts Standard数据管理相关计费FAQ
常见错误原因和解决方法 显存溢出错误 网卡名称错误 工作负载Pod异常 父主题: 主流开源大模型基于Lite Cluster适配PyTorch NPU训练指导(6.3.911)
Lite Cluster使用前必读 Lite Cluster使用流程 Lite Cluster高危操作一览表 不同机型的对应的软件配套版本
Cluster资源池 升级Lite Cluster资源池驱动 升级Lite Cluster资源池单个节点驱动 管理Lite Cluster资源池的游离节点 监控Lite Cluster资源 释放Lite Cluster资源
准备镜像 准备训练模型适用的容器镜像,包括获取镜像地址,了解镜像中包含的各类固件版本,配置物理机环境操作。 镜像地址 本教程中用到的训练和推理的基础镜像地址和配套版本关系如下表所示,请提前了解。 表1 基础容器镜像地址 镜像用途 镜像地址 基础镜像 swr.cn-southwest-2
存储路径。 如果type为“obs”类型,该值必须填写,该值需为有效的OBS桶路径,且以“/”结束。不能指定为OBS桶的根目录,需指定为OBS桶下的具体目录。 如果type为“obsfs”类型,该值需为有效的OBS并行文件系统的桶名(当前CCE不支持挂载子目录)。 如果type为“evs”类型,该值不需要填写。
id:只取算法的id; subscription_id+item_version_id:取算法的订阅id和版本id; code_dir+boot_file:取训练作业的代码目录和启动文件。 tasks Array of TaskResponse objects 异构训练作业的任务列表。
获取API授权关系列表 功能介绍 获取指定的API与APP授权关系列表,API的认证方式必须是APP认证,管理员可以获取所有API的授权信息,普通用户只能获取自己有访问权限的服务下的API的授权信息。 调试 您可以在API Explorer中调试该接口,支持自动认证鉴权。API
strings 使用数据的节点。 表21 WorkflowParameter 参数 参数类型 描述 name String Workflow工作流配置参数的名称。填写1-64位,仅包含英文、数字、下划线(_)和中划线(-),并且以英文开头的名称。 type String 参数的类型,枚举值如下:
准备镜像 准备训练模型适用的容器镜像,包括获取镜像地址,了解镜像中包含的各类固件版本,配置物理机环境操作。 镜像地址 本教程中用到的训练和推理的基础镜像地址和配套版本关系如下表所示,请提前了解。 表1 基础容器镜像地址 镜像用途 镜像地址 基础镜像 swr.cn-southwest-2
准备镜像 准备训练模型适用的容器镜像,包括获取镜像地址,了解镜像中包含的各类固件版本,配置物理机环境操作。 镜像地址 本教程中用到的训练和推理的基础镜像地址和配套版本关系如下表所示,请提前了解。 表1 基础容器镜像地址 镜像用途 镜像地址 基础镜像 swr.cn-southwest-2
sh 脚本中的 transformers 的版本。 由默认 transformers==4.45.0 修改为:transformers==4.44.2 为了避免因使用不同版本的 transformers 库进行训练和推理而导致冲突的问题,建议用户分别为训练和推理过程创建独立的容器环境。
String 当此Manifest文件由推理服务生成时会有该字段,表示推理输出的结果文件位置。 id String 样本ID。 source_type String source的类型,比如csv。 source_property String source的属性。 hard Boolean
准备代码 本教程中用到的训练推理代码和如下表所示,请提前准备好。 获取模型软件包和权重文件 本方案支持的模型对应的软件和依赖包获取地址如表1所示,模型列表、对应的开源权重获取地址如表2所示。 表1 模型对应的软件包和依赖包获取地址 代码包名称 代码说明 下载地址 AscendCloud-3rdLLM-6
自定义镜像训练作业的自定义镜像的SWR-URL。 user_command String 自定义镜像训练作业的自定义镜像的容器的启动命令。 resource_id String 训练作业的计费资源ID。 dataset_name String 训练作业的数据集名称。 start_time Long 训练作业开始时间。
如果ModelArts的自动学习项目、Notebook实例、训练作业或服务,都已经处于停止状态,即总览页面没看到收费项目,仍然发现账号还在计费。 有以下几种可能情况: 因为您在使用ModelArts过程中,将数据上传至OBS进行存储,OBS会根据实际存储的数据进行计费。建议前往O
如果ModelArts的自动学习项目、Notebook实例、训练作业或在线服务,都已经处于停止状态,即总览页面没看到收费项目,仍然发现账号还在计费。 有以下几种可能情况: 因为您在使用ModelArts过程中,将数据上传至OBS进行存储,OBS会根据实际存储的数据进行计费。建议前往