搜索_华为云

准备推理环境 - AI开发平台ModelArts

zip到主机中，包获取路径请参见表2。将权重文件上传到Server机器中。权重文件的格式要求为Huggingface格式。开源权重文件获取地址请参见支持的模型列表。如果使用模型训练后的权重文件进行推理，模型训练及训练后的权重文件转换操作可以参考大模型训练相关文档。权重要求放在磁盘的指定目录，并做目录大小检查，参考命令如下。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配Ascend-vLLM PyTorch NPU推理指导（6.3.912） > 推理服务部署
在云监控平台查看在线服务性能指标 - AI开发平台ModelArts

在云监控平台查看在线服务性能指标 ModelArts支持的监控指标为使用户更好地掌握自己的ModelArts在线服务和对应模型负载的运行状态，云服务平台提供了云监控。您可以使用该服务监控您的ModelArts在线服务和对应模型负载，执行自动实时监控、告警和通知操作，帮助您更好地了解服务和模型的各项性能指标。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard部署模型并推理预测 > 管理同步在线服务
在Notebook调试环境中部署推理服务 - AI开发平台ModelArts

_length”；如果设置过大，会占用过多显存，影响kvcache的空间。不同模型推理支持的max-model-len长度不同，具体差异请参见附录：基于vLLM（v0.3.2）不同模型推理支持的max-model-len长度说明。 --hostname：服务部署的IP，使用本机IP

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.905）
报错“An SSH installation couldn't be found”或者“Could not establish connection to instance xxx: 'ssh' ...”如何解决？ - AI开发平台ModelArts

instance xxx: 'ssh' ...”如何解决？问题现象或 VS Code连接Notebook一直提示选择证书，且提示信息除标题外，都是乱码。选择证书后，如上图所示仍然没有反应且无法进行连接。原因分析当前环境未装OpenSSH或者OpenSSH未安装在默认路径下，详情请参考VS

帮助中心 > AI开发平台ModelArts > 故障排除 > 开发环境 > VS Code连接开发环境失败故障处理
ModelArts SDK、OBS SDK和MoXing的区别是什么？ - AI开发平台ModelArts

包含很多组件，其中MoXing Framework模块是一个基础公共组件，可用于访问OBS服务，和具体的AI引擎解耦，在ModelArts支持的所有AI引擎(TensorFlow、MXNet、PyTorch、MindSpore等)下均可以使用。 MoXing Framework模

 帮助中心 > AI开发平台ModelArts > 常见问题 > API/SDK
断点续训和故障快恢说明 - AI开发平台ModelArts

故障快恢：默认加载${output_dir}/saved_checkpoints中最大迭代次数（iter_000xxxx）Megatron格式权重文件。 lora微调不支持断点续训启动前需检查latest_checkpointed_iteration.txt文件中内容是否与所需iter_000xxxx数字（

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配ModelLink PyTorch NPU训练指导（6.3.912） > 训练脚本说明参考
断点续训和故障快恢说明 - AI开发平台ModelArts

故障快恢：默认加载${output_dir}/saved_checkpoints中最大迭代次数（iter_000xxxx）Megatron格式权重文件。 lora微调不支持断点续训启动前需检查latest_checkpointed_iteration.txt文件中内容是否与所需iter_000xxxx数字（

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配ModelLink PyTorch NPU训练指导（6.3.912） > 训练脚本说明参考
动态扩充云硬盘EVS容量 - AI开发平台ModelArts

图1 创建Notebook实例时选择云硬盘EVS存储单次最大可以扩容100GB，扩容后的总容量不超过4096GB。云硬盘EVS存储容量最大支持4096GB，达到4096GB时，不允许再扩容。实例停止后，扩容后的容量仍然有效。计费也是按照扩容后的云硬盘EVS容量进行计费。云硬盘

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Notebook进行AI开发调试 > 管理Notebook实例
断点续训和故障快恢说明 - AI开发平台ModelArts

故障快恢：默认加载${output_dir}/saved_checkpoints中最大迭代次数（iter_000xxxx）Megatron格式权重文件。 lora微调不支持断点续训启动前需检查latest_checkpointed_iteration.txt文件中内容是否与所需iter_000xxxx数字（

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.912） > 训练脚本说明
训练迁移适配 - AI开发平台ModelArts

训练迁移适配完成环境准备之后，本节将详细介绍Dit模型训练迁移过程。执行以下命令，下载代码。 git clone https://github.com/facebookresearch/DiT.git cd Dit 执行以下命令，安装依赖项。 pip install diffusers==0

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > Dit模型PyTorch迁移与精度性能调优
删除训练作业 - AI开发平台ModelArts

调用失败时的错误码，具体请参见错误码。调用成功时无此字段。请求示例如下以删除“job_id”为10的作业为例。 DELETE https://endpoint/v1/{project_id}/training-jobs/10 响应示例成功响应示例 { "is_success":

帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 训练管理（旧版） > 训练作业
删除训练作业参数 - AI开发平台ModelArts

调用失败时的错误码，具体请参见错误码。调用成功时无此字段。请求示例如下以删除名称为“test-trainconfig”的作业参数为例。 DELETE https://endpoint/v1/{project_id}/training-job-configs/test-trainconfig 响应示例

 帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 训练管理（旧版） > 训练作业参数配置
发布模型到AI Gallery - AI开发平台ModelArts

选择合适的任务类型。许可证必填项，根据业务需求选择合适的许可证类型。描述必填项，填写资产简介，模型发布后将显示在模型页签上，方便用户快速了解资产。支持1~90个字符，请勿在描述中输入涉政、迷信、违禁等相关敏感词，否则发布审核无法通过。可见范围 “所有用户可见”：表示公开资产，所有用户都可以查看该资产。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（AI Gallery） > AI Gallery（新版） > 发布和管理AI Gallery模型
断点续训和故障快恢说明 - AI开发平台ModelArts

故障快恢：默认加载${output_dir}/saved_checkpoints中最大迭代次数（iter_000xxxx）Megatron格式权重文件。 lora微调不支持断点续训启动前需检查latest_checkpointed_iteration.txt文件中内容是否与所需iter_000xxxx数字（

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配ModelLink PyTorch NPU训练指导（6.3.912） > 训练脚本说明
非分离部署推理服务 - AI开发平台ModelArts

uggingface格式，当前支持QKV-proj、O-proj、gate_up_proj、down_proj模块的挂载。 --max-lora-rank表示挂载lora的最大rank数量，支持8、16、32、64。 --max-loras 表示支持的最大lora个数，最大32。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.910） > 部署推理服务
Standard资源池节点故障定位 - AI开发平台ModelArts

is corrupted”告警。 A050109 GPU 其他 GPU其他错误。检测到的其他GPU错误，通常为硬件问题，请联系技术人员支持。 A050147 IB 链路 IB网卡异常。 ibstat查看网卡非Active状态。 A050121 NPU 其他 npu dcmi接口检测到driver异常。

帮助中心 > AI开发平台ModelArts > 故障排除 > 资源池
获取训练作业日志的文件名 - AI开发平台ModelArts

式作业日志有多个文件。请求示例如下以获取“job_id”为10，“version_id”为10的作业日志文件为例。 GET https://endpoint/v1/{project_id}/training-jobs/10/versions/10/log/file-names

帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 训练管理（旧版） > 训练作业
停止可视化作业 - AI开发平台ModelArts

error_message String 调用失败时的错误信息。调用成功时无此字段。请求示例如下以停止作业ID为10的可视化作业为例。 POST https://endpoint/v1/{project_id}/visualization-jobs/10/stop 响应示例成功响应示例 {

帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 训练管理（旧版） > 可视化作业
训练的数据集预处理说明 - AI开发平台ModelArts

data/finetune/ LLama-Factory微调数据集预处理参数说明 ModelLink开源仓已经支持LLama-Factory格式的数据预处理，目前仅支持sft全参微调，lora微调。数据集预处理脚本参数说明如下： --input：原始数据集的存放路径。 --out

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配ModelLink PyTorch NPU训练指导（6.3.911） > 训练脚本说明
使用SDK调测多机分布式训练作业 - AI开发平台ModelArts

BS目录，SDK会将notebook目录code_dir打包上传到obs_path中。准备训练输出，与单机训练作业调试4相同。查看训练支持的AI框架，与单机训练作业调试5相同。保存当前Notebook为新镜像，与单机训练作业调试9相同。 Estimator初始化。 from

帮助中心 > AI开发平台ModelArts > SDK参考 > 训练管理 > 训练作业 > 训练作业调测

总条数： 1371

上一页
1
...
57
58
59
...
69
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

准备推理环境 - AI开发平台ModelArts

在云监控平台查看在线服务性能指标 - AI开发平台ModelArts

在Notebook调试环境中部署推理服务 - AI开发平台ModelArts

报错“An SSH installation couldn't be found”或者“Could not establish connection to instance xxx: 'ssh' ...”如何解决？ - AI开发平台ModelArts

ModelArts SDK、OBS SDK和MoXing的区别是什么？ - AI开发平台ModelArts

断点续训和故障快恢说明 - AI开发平台ModelArts

断点续训和故障快恢说明 - AI开发平台ModelArts

动态扩充云硬盘EVS容量 - AI开发平台ModelArts

断点续训和故障快恢说明 - AI开发平台ModelArts

训练迁移适配 - AI开发平台ModelArts

删除训练作业 - AI开发平台ModelArts

删除训练作业参数 - AI开发平台ModelArts

发布模型到AI Gallery - AI开发平台ModelArts

断点续训和故障快恢说明 - AI开发平台ModelArts

非分离部署推理服务 - AI开发平台ModelArts

Standard资源池节点故障定位 - AI开发平台ModelArts

获取训练作业日志的文件名 - AI开发平台ModelArts

停止可视化作业 - AI开发平台ModelArts

训练的数据集预处理说明 - AI开发平台ModelArts

使用SDK调测多机分布式训练作业 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线