搜索_华为云

断点续训和故障快恢说明 - AI开发平台ModelArts

故障快恢：默认加载${output_dir}/saved_checkpoints中最大迭代次数（iter_000xxxx）Megatron格式权重文件。 lora微调不支持断点续训启动前需检查latest_checkpointed_iteration.txt文件中内容是否与所需iter_000xxxx数字（

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配ModelLink PyTorch NPU训练指导（6.3.912） > 训练脚本说明参考
断点续训和故障快恢说明 - AI开发平台ModelArts

故障快恢：默认加载${output_dir}/saved_checkpoints中最大迭代次数（iter_000xxxx）Megatron格式权重文件。 lora微调不支持断点续训启动前需检查latest_checkpointed_iteration.txt文件中内容是否与所需iter_000xxxx数字（

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配ModelLink PyTorch NPU训练指导（6.3.912） > 训练脚本说明参考
发布模型到AI Gallery - AI开发平台ModelArts

选择合适的任务类型。许可证必填项，根据业务需求选择合适的许可证类型。描述必填项，填写资产简介，模型发布后将显示在模型页签上，方便用户快速了解资产。支持1~90个字符，请勿在描述中输入涉政、迷信、违禁等相关敏感词，否则发布审核无法通过。可见范围 “所有用户可见”：表示公开资产，所有用户都可以查看该资产。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（AI Gallery） > AI Gallery（新版） > 发布和管理AI Gallery模型
订阅的模型一直处于等待同步状态 - AI开发平台ModelArts

订阅的模型一直处于等待同步状态。原因分析订阅的模型一直处于等待同步状态，可能原因如下：由于ModelArts的数据存储、模型导入以及部署上线等功能依赖OBS、SWR等服务，需获取依赖服务的授权后，才能正常使用ModelArts的相关功能。您未被授权执行该操作。执行同步操作时报错：ModelArts

帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 模型管理
删除训练作业 - AI开发平台ModelArts

此接口为异步接口，作业状态请通过查询训练作业列表和查询训练作业版本详情接口获取。 URI DELETE /v1/{project_id}/training-jobs/{job_id} 参数说明如表1所示。表1 参数说明参数是否必选参数类型说明 project_id 是 String 用户项目

 帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 训练管理（旧版） > 训练作业
在ModelArts训练作业中如何判断文件夹是否复制完毕？ - AI开发平台ModelArts

件夹大小，根据结果判断是否复制完毕： import moxing as mox mox.file.get_size('obs://bucket_name/obs_file',recursive=True) 其中，“get_size”为获取文件或文件夹的大小。“recursive=

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard模型训练
Standard资源池节点故障定位 - AI开发平台ModelArts

is corrupted”告警。 A050109 GPU 其他 GPU其他错误。检测到的其他GPU错误，通常为硬件问题，请联系技术人员支持。 A050147 IB 链路 IB网卡异常。 ibstat查看网卡非Active状态。 A050121 NPU 其他 npu dcmi接口检测到driver异常。

帮助中心 > AI开发平台ModelArts > 故障排除 > 资源池
在ModelArts自动学习中模型训练图片异常怎么办？ - AI开发平台ModelArts

ignore 系统已自动过跳过这张图片，不需要用户处理。 2 tf-decode failed 图片无法被TensorFlow解码且不能修复 ignore 系统已跳过这张图片，不需要用户处理。 3 size over 图片大于5MB resize to small 系统已将图片压缩到5MB以内处理，不需要用户处理。

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard自动学习
配置仪表盘查看指标数据 - AI开发平台ModelArts

s-sdk.obs.cn-north-4.myhuaweicloud.com/metrics/grafana/dashboards/ModelArts-Cluster-View.json 节点视图 https://cnnorth4-modelarts-sdk.obs.cn-north-4

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > ModelArts Standard资源监控 > 使用Grafana查看AOM中的监控指标
日志提示“Please upgrade numpy to >= xxx to use this pandas version” - AI开发平台ModelArts

重新进行安装需要的版本。 import os os.system("pip uninstall -y numpy") os.system('rm -rf /home/work/anaconda/lib/python3.6/site-packages/numpy/') os.system("pip

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 云上迁移适配故障
GPU A系列裸金属服务器无法获取显卡如何解决 - AI开发平台ModelArts

Error 802原因为缺少fabricmanager，可能由于以下原因导致nvidia-fabricmanager.service不工作：可能系统资源不足、如内存不足、内存泄露。硬件故障、如IB网络或者GPU互联设备故障等。没安装nvidia-fabricmanager组件或被误卸载。

帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Server
托管镜像到AI Gallery - AI开发平台ModelArts

如果填写了“中文名称”，则资产发布后，在镜像页签上会显示该“中文名称”。描述填写资产简介，镜像发布后将作为副标题显示在镜像页签上，方便用户快速了解资产。支持0~90个字符，请勿在描述中输入涉政、迷信、违禁等相关敏感词，否则发布审核无法通过。创建完成后，跳转至镜像详情页。上传镜像文件在镜像详情页，选择“镜像文件”页签。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（AI Gallery） > AI Gallery（新版） > 发布和管理AI Gallery镜像
如何将在ModelArts中训练好的模型下载或迁移到其他账号？ - AI开发平台ModelArts

如何将在ModelArts中训练好的模型下载或迁移到其他账号？通过训练作业训练好的模型可以下载，然后将下载的模型上传存储至其他账号对应区域的OBS中。获取模型下载路径登录ModelArts管理控制台，在左侧导航栏中选择“模型训练 > 训练作业”，进入“训练作业”列表。在训练作业

 帮助中心 > AI开发平台ModelArts > 常见问题 > Standard模型训练
发布数据集到AI Gallery - AI开发平台ModelArts

许可证必填项，根据业务需求选择合适的许可证类型。描述必填项，填写资产简介，数据集发布后将显示在数据集页签上，方便用户快速了解资产。支持1~90个字符，请勿在描述中输入涉政、迷信、违禁等相关敏感词，否则发布审核无法通过。可见范围 “所有用户可见”：表示公开资产，所有用户都可以查看该资产。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（AI Gallery） > AI Gallery（新版） > 发布和管理AI Gallery数据集
Chunked Prefill - AI开发平台ModelArts

该特性不能和PD分离、Prefix Cache、KV Cache量化特性、multi-lora特性同时使用。 LLama系列、Qwen系列模型支持此特性。 Chunked Prefill参数配置 Chunked Prefill的依赖参数如下表所示。表1 依赖参数说明配置项取值类型

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配Ascend-vLLM PyTorch NPU推理指导（6.3.912） > 推理关键特性使用
准备镜像 - AI开发平台ModelArts
准备镜像 - AI开发平台ModelArts

-v ${work_dir}:${container_work_dir} 代表需要在容器中挂载宿主机的目录。宿主机和容器使用不同的文件系统。work_dir为宿主机中工作目录，目录下存放着训练所需代码、数据等文件。container_work_dir为要挂载到的容器中的目录。为方便两个地址可以相同。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配ModelLink PyTorch NPU训练指导（6.3.912） > 准备工作
无法导入模块 - AI开发平台ModelArts

path”中，再导入： import os import sys # __file__为获取当前执行脚本main.py的绝对路径 # os.path.dirname(__file__)获取main.py的父目录，即project_dir的绝对路径 current_path = os.path.dirname(__file__)

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 云上迁移适配故障
eagle投机小模型训练 - AI开发平台ModelArts

outdir：生成的训练data 地址 end_num：生成的data总条数 used_npus：使用哪些NPU model_type：使用模型类型目前支持 qwen2 llama1 llama2 及 llama3，其中llama1、2及chat都填写llama model_name：模型地址

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.910）
如何删除ModelArts数据集中的图片？ - AI开发平台ModelArts

在“全部”、“未标注”或“已标注”页面中，依次选中需要删除的图片，或者“选择当前页”选中该页面所有图片，然后单击删除。在弹出的对话框中，根据实际情况选择是否勾选“同时删除OBS源文件”，确认信息无误后，单击“确定”完成图片删除操作。其中，被选中的图片，其左上角将显示为勾选状态。如果当前页面无选中图片时，按钮为灰色，无法执行删除操作。

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard数据准备
创建训练作业参数 - AI开发平台ModelArts

不可与data_url同时出现。 type 否 String 数据集类型。可选值有“obs”、“dataset”。obs与dataset不可同时出现。 data_url 否 String OBS的桶路径，不可与dataset_id/dataset_version同时出现。表4 parameter属性列表

 帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 训练管理（旧版） > 训练作业参数配置

总条数： 2188

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

断点续训和故障快恢说明 - AI开发平台ModelArts

断点续训和故障快恢说明 - AI开发平台ModelArts

发布模型到AI Gallery - AI开发平台ModelArts

订阅的模型一直处于等待同步状态 - AI开发平台ModelArts

删除训练作业 - AI开发平台ModelArts

在ModelArts训练作业中如何判断文件夹是否复制完毕？ - AI开发平台ModelArts

Standard资源池节点故障定位 - AI开发平台ModelArts

在ModelArts自动学习中模型训练图片异常怎么办？ - AI开发平台ModelArts

配置仪表盘查看指标数据 - AI开发平台ModelArts

日志提示“Please upgrade numpy to >= xxx to use this pandas version” - AI开发平台ModelArts

GPU A系列裸金属服务器无法获取显卡如何解决 - AI开发平台ModelArts

托管镜像到AI Gallery - AI开发平台ModelArts

如何将在ModelArts中训练好的模型下载或迁移到其他账号？ - AI开发平台ModelArts

发布数据集到AI Gallery - AI开发平台ModelArts

Chunked Prefill - AI开发平台ModelArts

准备镜像 - AI开发平台ModelArts

无法导入模块 - AI开发平台ModelArts

eagle投机小模型训练 - AI开发平台ModelArts

如何删除ModelArts数据集中的图片？ - AI开发平台ModelArts

创建训练作业参数 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线