搜索_华为云

SFT全参微调权重转换 - AI开发平台ModelArts

--loader：权重转换要加载检查点的模型名称。 --tensor-model-parallel-size：张量并行数，需要与训练脚本中的TP值配置一样。 --pipeline-model-parallel-size：流水线并行数，需要与训练脚本中的PP值配置一样。 --saver：检查模型保存名称。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > LLama2系列模型基于DevServer适配PyTorch NPU训练指导（6.3.904） > SFT全参微调训练
（可选）配置镜像预热 - AI开发平台ModelArts

如何获取长期有效指令”链接获取指导。单击“确认”后，在预热信息框中可以看到已成功预热的镜像信息。图7 镜像预热成功若镜像预热失败，请检查镜像地址以及密钥是否正确。父主题： Lite Cluster资源配置

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster资源配置
断点续训练 - AI开发平台ModelArts

Llama2-70B的断点续训脚本llama2.sh，存放在“xxx-Ascend/llm_train/AscendSpeed/scripts/llama2”目录下。执行命令如下，进入AscendSpeed代码目录。xxx-Ascend请根据实际目录替换。 cd /home/ma-user/ws/xxx-Asc

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > LLama2系列模型基于DevServer适配PyTorch NPU训练指导（6.3.904） > 预训练
预训练任务 - AI开发平台ModelArts

BS、GBS、TP、PP、SEQ_LEN 为非必填，有默认值。多机启动以GLM3-6B为例，多台机器执行训练启动命令如下。多机启动需要在每个节点上执行，以下命令以双机为例。进入代码目录/home/ma-user/ws/xxx-Ascend/llm_train/AscendS

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > GLM3-6B模型基于DevServer适配PyTorch NPU训练指导（6.3.904） > 预训练
SFT微调训练任务 - AI开发平台ModelArts

多机必填。主节点IP地址，多台机器中指定一个节点IP为主节点IP。一般指定第一个节点IP为主节点IP。 NNODES 1 多机必填。节点总数，如为双机，则写2。单机默认是1。 NODE_RANK 0 多机必填。节点序号，当前节点ID，一般从0开始。单机默认是0。以Qwen-72B 5机训练为例，节点ID依次为（0

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > Qwen系列模型基于DevServer适配PyTorch NPU训练指导（6.3.904） > SFT微调训练
SFT微调权重转换 - AI开发平台ModelArts

--loader：权重转换要加载检查点的模型名称。 --tensor-model-parallel-size：张量并行数，需要与训练脚本中的配置一样。 --pipeline-model-parallel-size：流水线并行数，需要与训练脚本中的配置一样。 --saver：检查模型保存名称。 -

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > Qwen系列模型基于DevServer适配PyTorch NPU训练指导（6.3.904） > SFT微调训练
部署为批量服务 - AI开发平台ModelArts

请根据实际编码情况选择计算模式。 “环境变量” 设置环境变量，注入环境变量到容器实例。为确保您的数据安全，在环境变量中，请勿输入敏感信息，如明文密码。 “部署超时时间” 用于设置单个模型实例的超时时间，包括部署和启动时间。默认值为20分钟，输入值必须在3到120之间。 “运行日志输出”

帮助中心 > AI开发平台ModelArts > 推理部署（历史文档待下线） > 部署AI应用（部署上线） > 部署AI应用（批量服务）
SFT全参微调权重转换 - AI开发平台ModelArts

_hf.sh 其脚本2_convert_mg_hf.sh参数说明： --model-type：模型类型。 --loader：权重转换要加载检查点的模型名称。 --tensor-model-parallel-size：${TP} 张量并行数，需要与训练脚本中的配置一样。 --pip

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > GLM3-6B模型基于DevServer适配PyTorch NPU训练指导（6.3.904） > SFT全参微调训练
使用Notebook进行代码调试 - AI开发平台ModelArts

时”、“4小时”、“6小时”或“自定义”几种模式。选择“自定义”模式时，可指定1~24小时范围内任意整数。填写Notebook详细参数，如镜像、资源规格等。镜像：在“自定义镜像”页签选择已上传的自定义镜像。资源类型：按实际情况选择已创建的专属资源池。规格：选择8卡GPU规格，“run

帮助中心 > AI开发平台ModelArts > 最佳实践 > 历史待下线案例 > 专属资源池训练 > 调试与训练 > 单机多卡
批量服务输入/输出obs目录不存在或者权限不足 - AI开发平台ModelArts

3567：使用的数据输入或者输出obs目录存在，但是当前账号无权限访问处理方法 ModelArts.3551：到obs检查输入数据目录是否存在，如果不存在，请按照实际需要创建obs目录；如果检查发现目录存在，但依然报同样的错，可以提工单申请技术支持 ModelArts.3567：用户只能访问自己

 帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 服务部署
创建训练作业参数 - AI开发平台ModelArts

训练作业的输出文件OBS路径URL，默认为空，如“/usr/train/”。 log_url 否 String 训练作业的日志OBS输出路径URL，默认为空。如：“/usr/train/”。 user_image_url 否 String 自定义镜像训练作业的自定义镜像的SWR-URL。如：“100.125

帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 训练管理（旧版） > 训练作业参数配置
镜像方案说明 - AI开发平台ModelArts

直接使用基础镜像方案：用户可在训练作业中直接选择基础镜像作为运行环境。但基础镜像中pip依赖包缺少或版本不匹配，因此每次创建训练作业时，训练作业的启动命令中都需要执行 install.sh 文件，来安装依赖以及下载完整代码。 ECS中构建新镜像方案：在ECS中，通过运行Dockerfile文

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配PyTorch NPU训练指导（6.3.908） > 准备工作 > 准备镜像
安装ModelArts SDK报错“ERROR: Could not install packages due to an OSError” - AI开发平台ModelArts

原因分析用户使用权限问题导致。处理方法用户电脑切换到管理员角色，键盘快捷键（Windows+R模式）并输入cmd，进入黑色窗口，执行如下命令： python -m pip install --upgrade pip 父主题： API/SDK

帮助中心 > AI开发平台ModelArts > 故障排除 > API/SDK
使用PyCharm手动连接Notebook - AI开发平台ModelArts

Session”，则可连接到云端开发环境内。执行如下命令可在/home/ma-user/下面的README文件查看当前环境内置的Python虚拟环境。 cat /home/ma-user/README 执行source命令可以切换到具体的Python环境中。执行which p

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Notebook进行AI开发调试 > 通过PyCharm远程使用Notebook实例
准备代码 - AI开发平台ModelArts
准备代码 - AI开发平台ModelArts

install.sh # 环境部署脚本 |——src/ # 启动命令行封装脚本，在install.sh里面自动构建 |──llm_inference # 推理代码包 |──llm_tools

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配PyTorch NPU训练指导（6.3.908） > 准备工作
Lite Server使用流程 - AI开发平台ModelArts

首先请先联系客户经理确认Server资源方案，部分规格为受限规格，因此需要申请开通您所需的资源规格。 Server所需资源可能会超出华为云默认提供的资源配额（如ECS、EIP、SFS），因此需要提交工单提升资源配额。为子用户账号开通Server功能所需的基础权限。由于ModelArts服务在使用

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Server） > Lite Server使用前必读
tensorboard显示502 bad gateway - AI开发平台ModelArts

启动tensorboard对应的summary目录过大，导致tensorboard加载summary导致OOM。处理方法检查summary目录是否存在其他文件，如有请删除。检查summary目的文件是否过大（比如大于5GB），如果有请减小summary。父主题： OBS操作相关故障

 帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > OBS操作相关故障
断点续训练 - AI开发平台ModelArts

sh，存放在“6.3.904-Ascend/llm_train/AscendSpeed/scripts/baichuan2”目录下。执行命令如下，进入AscendSpeed代码目录。 cd /home/ma-user/ws/6.3.904-Ascend/llm_train/AscendSpeed/

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > Baichuan2-13B模型基于DevServer适配PyTorch NPU训练指导（6.3.904） > 预训练
SFT全参微调任务 - AI开发平台ModelArts

MBS、GBS、TP、PP、SEQ_LEN为非必填，有默认值。多机启动以GLM3-6B为例，多台机器执行训练启动命令如下。多机启动需要在每个节点上执行，以下命令以双机为例。进入代码目录/home/ma-user/ws/xxx-Ascend/llm_train/AscendS

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > GLM3-6B模型基于DevServer适配PyTorch NPU训练指导（6.3.904） > SFT全参微调训练
查看Notebook实例事件 - AI开发平台ModelArts

StartNotebookFailed 实例启动失败紧急 PullImageFailed 镜像拉取失败紧急 CreateKernelFailed conda命令不可用导致创建jupyter kernel失败（The jupyter launcher page does not contain the

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Notebook进行AI开发调试 > 管理Notebook实例

总条数： 757

上一页
1
...
24
25
26
...
38
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

SFT全参微调权重转换 - AI开发平台ModelArts

（可选）配置镜像预热 - AI开发平台ModelArts

断点续训练 - AI开发平台ModelArts

预训练任务 - AI开发平台ModelArts

SFT微调训练任务 - AI开发平台ModelArts

SFT微调权重转换 - AI开发平台ModelArts

部署为批量服务 - AI开发平台ModelArts

SFT全参微调权重转换 - AI开发平台ModelArts

使用Notebook进行代码调试 - AI开发平台ModelArts

批量服务输入/输出obs目录不存在或者权限不足 - AI开发平台ModelArts

创建训练作业参数 - AI开发平台ModelArts

镜像方案说明 - AI开发平台ModelArts

安装ModelArts SDK报错“ERROR: Could not install packages due to an OSError” - AI开发平台ModelArts

使用PyCharm手动连接Notebook - AI开发平台ModelArts

准备代码 - AI开发平台ModelArts

Lite Server使用流程 - AI开发平台ModelArts

tensorboard显示502 bad gateway - AI开发平台ModelArts

断点续训练 - AI开发平台ModelArts

SFT全参微调任务 - AI开发平台ModelArts

查看Notebook实例事件 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线