搜索_华为云

推理性能测试 - AI开发平台ModelArts

最大长度，模型启动参数--max-input-length值需要大于该值 --max-prompt-tokens：输入限制的最大长度，推理时最大输入tokens数量，模型启动参数--max-total-tokens值需要大于该值，tokenizer建议带tokenizer.json的FastTokenizer

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于LIte Server适配PyTorch NPU推理指导（6.3.905）
查询训练作业列表 - AI开发平台ModelArts

autosearch_config_path String 自动化搜索作业的yaml配置路径，需要提供一个OBS路径。 autosearch_framework_path String 自动化搜索作业的框架代码目录，需要提供一个OBS路径。 command String 自定义镜像训练作业的自定义

 帮助中心 > AI开发平台ModelArts > SDK参考 > 训练管理 > 训练作业
训练启动脚本说明和参数配置 - AI开发平台ModelArts

必须修改。指定的输入数据集中数据的总数量。更换数据集时，需要修改。 EPOCH 5 表示训练轮次，根据实际需要修改。一个Epoch是将所有训练样本训练一次的过程。 TRAIN_ITERS SN / GBS * EPOCH 非必填。表示训练step迭代次数，根据实际需要修改。 SEED 1234 随机种子数。每次数据采样时，保持一致。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配PyTorch NPU训练指导（6.3.907） > 训练脚本说明
更新训练作业描述 - AI开发平台ModelArts

获得。表2 update_job_configs请求参数说明参数是否必选参数类型描述 description 是 String 需要更改的训练作业的描述信息。无成功响应参数表3 调用训练接口失败响应参数参数类型描述 error_msg String 调用失败时的错误信息，调用成功时无此字段。

帮助中心 > AI开发平台ModelArts > SDK参考 > 训练管理 > 训练作业
释放Lite Cluster资源 - AI开发平台ModelArts

Cluster”，在“弹性集群”页面，选择“Lite资源池”页签，查看资源池列表。在资源池列表中，单击操作列的“ > 退订”，跳转至“退订资源”页面。根据界面提示，确认需要退订的资源，并选择退订原因。确认退订信息无误后，勾选“资源退订后……”提示信息。单击“退订”，再次根据界面信息确认要退订的资源。再次

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster资源管理
显存溢出错误 - AI开发平台ModelArts

-batch-size）、GBS指一个iteration所处理的样本量（global-batch-size）。可将MBS参数值调小至1，但需要遵循GBS/MBS的值能够被NPU/(TP×PP)的值进行整除。可调整参数：SEQ_LEN要处理的最大的序列长度（seq-length），参数值过大很容易发生显存溢出的错误。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配ModelLink PyTorch NPU训练指导（6.3.908） > 常见错误原因和解决方法
显存溢出错误 - AI开发平台ModelArts

-batch-size）、GBS指一个iteration所处理的样本量（global-batch-size）。可将MBS参数值调小至1，但需要遵循GBS/MBS的值能够被NPU/(TP×PP)的值进行整除。可调整参数：SEQ_LEN要处理的最大的序列长度（seq-length），参数值过大很容易发生显存溢出的错误。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配ModelLink PyTorch NPU训练指导（6.3.909） > 常见错误原因和解决方法
显存溢出错误 - AI开发平台ModelArts

-batch-size）、GBS指一个iteration所处理的样本量（global-batch-size）。可将MBS参数值调小至1，但需要遵循GBS/MBS的值能够被NPU/(TP×PP)的值进行整除。可调整参数：SEQ_LEN要处理的最大的序列长度（seq-length），参数值过大很容易发生显存溢出的错误。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配ModelLink PyTorch NPU训练指导（6.3.910） > 常见错误原因和解决方法
显存溢出错误 - AI开发平台ModelArts

-batch-size）、GBS指一个iteration所处理的样本量（global-batch-size）。可将MBS参数值调小至1，但需要遵循GBS/MBS的值能够被NPU/(TP×PP)的值进行整除。可调整参数：SEQ_LEN要处理的最大的序列长度（seq-length），参数值过大很容易发生显存溢出的错误。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配ModelLink PyTorch NPU训练指导（6.3.910） > 常见错误原因和解决方法
显存溢出错误 - AI开发平台ModelArts

-batch-size）、GBS指一个iteration所处理的样本量（global-batch-size）。可将MBS参数值调小至1，但需要遵循GBS/MBS的值能够被NPU/(TP×PP)的值进行整除。可调整参数：SEQ_LEN要处理的最大的序列长度（seq-length），参数值过大很容易发生显存溢出的错误。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.910） > 常见错误原因和解决方法
查看日志和性能 - AI开发平台ModelArts

kubectl logs -f ${pod_name} 训练过程中，训练日志会在最后的Rank节点打印。图1 打印训练日志训练完成后，如果需要单独获取训练日志文件，可以在${SAVE_PATH}/logs路径下获取。日志存放路径为：/home/ma-user/ws/saved_d

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配ModelLink PyTorch NPU训练指导（6.3.911）
显存溢出错误 - AI开发平台ModelArts

-batch-size）、GBS指一个iteration所处理的样本量（global-batch-size）。可将MBS参数值调小至1，但需要遵循GBS/MBS的值能够被NPU/(TP×PP)的值进行整除。可调整参数：SEQ_LEN要处理的最大的序列长度（seq-length），参数值过大很容易发生显存溢出的错误。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配ModelLink PyTorch NPU训练指导（6.3.912） > 常见错误原因和解决方法
显存溢出错误 - AI开发平台ModelArts

-batch-size）、GBS指一个iteration所处理的样本量（global-batch-size）。可将MBS参数值调小至1，但需要遵循GBS/MBS的值能够被NPU/(TP×PP)的值进行整除。可调整参数：SEQ_LEN要处理的最大的序列长度（seq-length），参数值过大很容易发生显存溢出的错误。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配ModelLink PyTorch NPU训练指导（6.3.912） > 常见错误原因和解决方法
发布模型到AI Gallery - AI开发平台ModelArts

“指定用户可见”：输入账号名、账号ID或用户昵称搜索并选择用户，使其可见该资产。可用范围选择是否启用“申请用户可用”。勾选启用：当用户要使用该模型时需要提交申请，只有模型所有者同意申请后，才能使用或复制模型。不勾选不启用（默认值）：所有可见资产的用户都可以直接使用模型。发布后，资产会处

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（AI Gallery） > AI Gallery（新版） > 发布和管理AI Gallery模型
重置节点后无法正常使用？ - AI开发平台ModelArts

删除maos-node-agent的pod（重启pod）。 CCE页面上删除节点上的污点A200008。 ModelArts页面上重置节点。该方案的缺点：用户新建负载时需要手动指定调度器为volcano，参考指导。解决方案二（默认全部使用volcano调度器）： CCE页面上配置中心修改默认调度器为kube-scheduler。

帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Cluster
查找和收藏资产 - AI开发平台ModelArts

单击目标资产，进入资产详情页面。在资产详情页面，单击按钮收藏资产。收藏成功后，在各个模块的“我的收藏”页签可以快速查看收藏的资产。图2 查看收藏的资产（可选）如果需要取消收藏，再次单击按钮即可。父主题：订阅使用

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（AI Gallery） > AI Gallery（旧版） > 订阅使用
查询工作空间详情 - AI开发平台ModelArts

200 表3 响应Body参数参数参数类型描述 grants Array of grants objects 授权用户列表。默认为空。需要与“auth_type”参数配合使用，且仅当授权类型为“INTERNAL”时才会生效。 owner String 创建者名称。 auth_type

帮助中心 > AI开发平台ModelArts > API参考 > 工作空间管理
预训练任务 - AI开发平台ModelArts

必须修改。加载tokenizer与Hugging Face权重时，对应的存放地址。请根据实际规划修改。对于ChatGLMv3-6B和Qwen系列模型，还需要手动修改tokenizer文件，具体请参见训练tokenizer文件说明。 Step3 启动训练脚本请根据Step2 修改训练超参配置修

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU训练指导（6.3.905）
Standard资源池节点故障定位 - AI开发平台ModelArts

Uncorrectable记录。 L3: 错误未被抑制，可能影响后续业务，需要重置卡或重启节点。观测方式：Xid事件中包含95事件。(Remapped的Pending记录只作为提示，当业务空闲时进行卡重置触发重映射即可) L4: 需要换卡，SRAM Uncorrectable>4或者Remapped

帮助中心 > AI开发平台ModelArts > 故障排除 > 资源池
预训练任务 - AI开发平台ModelArts

必须修改。加载tokenizer与Hugging Face权重时，对应的存放地址。请根据实际规划修改。对于ChatGLMv3-6B和Qwen系列模型，还需要手动修改tokenizer文件，具体请参见训练tokenizer文件说明。步骤3 启动训练脚本请根据步骤2 修改训练超参配置修改超参值

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU训练指导（6.3.906）

总条数： 1509

上一页
1
...
64
65
66
...
76
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

推理性能测试 - AI开发平台ModelArts

查询训练作业列表 - AI开发平台ModelArts

训练启动脚本说明和参数配置 - AI开发平台ModelArts

更新训练作业描述 - AI开发平台ModelArts

释放Lite Cluster资源 - AI开发平台ModelArts

显存溢出错误 - AI开发平台ModelArts

显存溢出错误 - AI开发平台ModelArts

显存溢出错误 - AI开发平台ModelArts

显存溢出错误 - AI开发平台ModelArts

显存溢出错误 - AI开发平台ModelArts

查看日志和性能 - AI开发平台ModelArts

显存溢出错误 - AI开发平台ModelArts

显存溢出错误 - AI开发平台ModelArts

发布模型到AI Gallery - AI开发平台ModelArts

重置节点后无法正常使用？ - AI开发平台ModelArts

查找和收藏资产 - AI开发平台ModelArts

查询工作空间详情 - AI开发平台ModelArts

预训练任务 - AI开发平台ModelArts

Standard资源池节点故障定位 - AI开发平台ModelArts

预训练任务 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线