搜索_华为云

准备代码 - AI开发平台ModelArts
准备代码 - AI开发平台ModelArts

代码说明下载地址 AscendCloud-3rdLLM-6.3.904-xxx.zip 说明：软件包名称中的xxx表示时间戳。包含了本教程中使用到的模型训练代码、推理部署代码和推理评测代码。代码包具体说明请参见代码目录介绍。 AscendSpeed是用于模型并行计算的框架，其中包含了许多模型的输入处理方法。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > Qwen系列模型基于DevServer适配PyTorch NPU训练指导（6.3.904） > 准备工作
查询资源池列表，可通过标签、资源池状态筛选查询资源池列表 - AI开发平台ModelArts

空间时默认值为“0”，存在创建并使用的工作空间，以实际取值为准。 os.modelarts/name String 用户指定的pool名称。 os.modelarts/resource.id String 资源池的主资源id，通常提供给cbc使用。 os.modelarts/tenant

帮助中心 > AI开发平台ModelArts > API参考 > 资源管理
训练前卡死 - AI开发平台ModelArts

err 129等通信信息时，说明当前网络不是很稳定。解决方案3 可加入3个环境变量。 NCCL_IB_GID_INDEX=3：使用RoCE v2协议，默认使用RoCE v1，但是v1在交换机上没有拥塞控制，可能丢包，而且后面的交换机不会支持v1，就无法启动。 NCCL_IB_TC=

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 训练作业卡死
SFT全参微调训练 - AI开发平台ModelArts

创建训练作业，并自定义名称、描述等信息。选择自定义算法，启动方式自定义，以及上传的镜像。训练脚本中会自动执行训练前的权重转换操作和数据处理操作。图1 选择镜像如果镜像使用使用基础镜像中的基础镜像时，训练作业启动命令中输入： cd /home/ma-user/work/llm_train/AscendSpeed;

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配PyTorch NPU训练指导（6.3.908）
LoRA微调训练 - AI开发平台ModelArts

创建训练作业，并自定义名称、描述等信息。选择自定义算法，启动方式自定义，以及上传的镜像。训练脚本中会自动执行训练前的权重转换操作和数据处理操作。图1 选择镜像如果镜像使用使用基础镜像中的基础镜像时，训练作业启动命令中输入： cd /home/ma-user/work/llm_train/AscendSpeed;

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配PyTorch NPU训练指导（6.3.908）
线上训练得到的模型是否支持离线部署在本地？ - AI开发平台ModelArts

单击“输出路径”，跳转至OBS对象路径，下载训练得到的模型。在本地环境进行离线部署。具体请参见模型调试章节在本地导入模型，参见服务调试章节，将模型离线部署在本地并使用。父主题：功能咨询

 帮助中心 > AI开发平台ModelArts > 常见问题 > Standard推理部署 > 部署上线 > 功能咨询
准备代码 - AI开发平台ModelArts
准备代码 - AI开发平台ModelArts

图1 修改区分训练作业中2个代码目录使用环境变量SAVE_PATH重新覆盖权重文件保存路径，作为最终的权重保存路径。修改代码如图2。图2 修改权重保存路径多机训练场景下，需要将CODE_DIR修改为OBS_CODE_DIR目录，则可以使用scripts/tools/sync_with_obs

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配PyTorch NPU训练指导（6.3.908） > 准备工作
安装ModelArts SDK报错“ERROR: Could not install packages due to an OSError” - AI开发平台ModelArts

-> 'c:\python39\Scripts\ephemeral-port-reserve.exe.deleteme ”。原因分析用户使用权限问题导致。处理方法用户电脑切换到管理员角色，键盘快捷键（Windows+R模式）并输入cmd，进入黑色窗口，执行如下命令： python

帮助中心 > AI开发平台ModelArts > 故障排除 > API/SDK
服务启动后，状态断断续续处于“告警中” - AI开发平台ModelArts

process the new request 原因分析该报错是因为发送预测请求后，服务出现停止后又启动的情况。处理方法需要您检查服务使用的镜像，确定服务停止的原因，修复问题。重新创建AI应用部署服务。父主题：服务部署

 帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 服务部署
预训练 - AI开发平台ModelArts
预训练 - AI开发平台ModelArts

创建训练作业，并自定义名称、描述等信息。选择自定义算法，启动方式自定义，以及上传的镜像。训练脚本中会自动执行训练前的权重转换操作和数据处理操作。图1 选择镜像如果镜像使用使用基础镜像中的基础镜像时，训练作业启动命令中输入： cd /home/ma-user/work/llm_train/AscendSpeed;

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配PyTorch NPU训练指导（6.3.908）
预训练 - AI开发平台ModelArts
预训练 - AI开发平台ModelArts

创建训练作业，并自定义名称、描述等信息。选择自定义算法，启动方式自定义，以及上传的镜像。训练脚本中会自动执行训练前的权重转换操作和数据处理操作。图1 选择镜像若镜像使用使用基础镜像中的基础镜像时，训练作业启动命令中输入： cd /home/ma-user/work/llm_train/AscendSpeed;

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配PyTorch NPU训练指导（6.3.907）
服务部署失败，报错No Module named XXX - AI开发平台ModelArts

‘model_service.tfserving_model_service’，则需要您在推理代码customize_service.py里使用from model_service.pytorch_model_service import PTServingBaseService。示例代码：

帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 服务部署
查询开发环境实例详情 - AI开发平台ModelArts

排队信息，如表17所示。 user Object 用户信息，如表18所示。 repository Object Git仓库信息，如表19所示。该字段不支持使用，在调用接口时会自动返回。表3 profile字段数据结构说明参数参数类型说明 id String 配置ID。 name String

帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 开发环境（旧版）
错误码 - AI开发平台ModelArts
错误码 - AI开发平台ModelArts

工作空间配额耗尽，联系管理员扩大工作空间配额。 400 ModelArts.0118 QuotaInsufficient 要使用的%s超过配额限制释放未使用的资源，或联系技术支持增加配额 400 ModelArts.0204 Token must contain projectId

帮助中心 > AI开发平台ModelArts > API参考 > 公共参数
审核并验收团队标注任务结果 - AI开发平台ModelArts

只有数据集创建者可修改。表1 完成验收的参数设置参数说明对已标注数据修改不覆盖：针对同一个数据，不使用当前团队标注的结果覆盖已有数据。覆盖：针对同一个数据，使用当前团队标注的结果覆盖已有数据。覆盖后无法恢复，请谨慎操作。验收范围全部通过：被驳回的样本，也会通过。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 数据准备与处理 > 标注ModelArts数据集中的数据 > 通过团队标注方式标注数据
执行LoRA微调训练任务 - AI开发平台ModelArts

NODE_RANK=0 sh scripts/llama2/0_pl_lora_13b.sh 如果单机运行需要指定使用NPU卡的数量，可提前定义变量 NPUS_PER_NODE 。例如使用单机四卡训练Llama2-7B命令。 MASTER_ADDR=localhost NNODES=1 NODE_RANK=0

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配ModelLink PyTorch NPU训练指导（6.3.908）
查询资源池 - AI开发平台ModelArts

空间时默认值为“0”，存在创建并使用的工作空间，以实际取值为准。 os.modelarts/name String 用户指定的pool名称。 os.modelarts/resource.id String 资源池的主资源id，通常提供给cbc使用。 os.modelarts/tenant

帮助中心 > AI开发平台ModelArts > API参考 > 资源管理
更新开发环境实例信息 - AI开发平台ModelArts

排队信息，如表26所示。 user Object 用户信息，如表27所示。 repository Object Git仓库信息，如表28所示。该字段不支持使用，在调用接口时会自动返回。表6 profile字段数据结构说明参数参数类型说明 id String 配置ID。 name String

帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 开发环境（旧版）
创建数据集 - AI开发平台ModelArts

Boolean 是否导入数据，此参数当前仅表格数据集使用。可选值如下： true：创建数据集时导入数据 false：创建数据集时不导入数据（默认值） label_format 否 LabelFormat object 标签格式信息，此参数仅文本类数据集使用。 labels 否 Array of

帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 数据管理（旧版）
按标签名称更新单个标签 - AI开发平台ModelArts

@modelarts:from_type 否 String 内置属性：三元组关系标签的起始实体类型，创建关系标签时必须指定，该参数仅文本三元组数据集使用。 @modelarts:rename_to 否 String 内置属性：重命名后的标签名。 @modelarts:shortcut 否 String

帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 数据管理（旧版）

总条数： 1852

上一页
1
...
82
83
84
...
93
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

准备代码 - AI开发平台ModelArts

查询资源池列表，可通过标签、资源池状态筛选查询资源池列表 - AI开发平台ModelArts

训练前卡死 - AI开发平台ModelArts

SFT全参微调训练 - AI开发平台ModelArts

LoRA微调训练 - AI开发平台ModelArts

线上训练得到的模型是否支持离线部署在本地？ - AI开发平台ModelArts

准备代码 - AI开发平台ModelArts

安装ModelArts SDK报错“ERROR: Could not install packages due to an OSError” - AI开发平台ModelArts

服务启动后，状态断断续续处于“告警中” - AI开发平台ModelArts

预训练 - AI开发平台ModelArts

预训练 - AI开发平台ModelArts

服务部署失败，报错No Module named XXX - AI开发平台ModelArts

查询开发环境实例详情 - AI开发平台ModelArts

错误码 - AI开发平台ModelArts

审核并验收团队标注任务结果 - AI开发平台ModelArts

执行LoRA微调训练任务 - AI开发平台ModelArts

查询资源池 - AI开发平台ModelArts

更新开发环境实例信息 - AI开发平台ModelArts

创建数据集 - AI开发平台ModelArts

按标签名称更新单个标签 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线