搜索_华为云

SFT全参微调任务 - AI开发平台ModelArts

RAIN_ITERS、MBS、GBS、TP、PP、WORK_DIR、SEQ_LEN为非必填，有默认值。训练完成后，请参考查看日志和性能章节查看日志和性能。父主题： SFT全参微调训练

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > GLM3-6B模型基于DevServer适配PyTorch NPU训练指导（6.3.904） > SFT全参微调训练
SDXL Diffusers框架基于Devserver适配PyTorch NPU推理指导（6.3.902） - AI开发平台ModelArts

evServer资源。本方案目前仅适用于企业客户。资源规格要求推理部署推荐使用“西南-贵阳一”Region上的DevServer资源和Ascend Snt9B单机单卡。获取软件获取插件代码包ascendcloud-aigc-6.3.902-*.tar.gz文件。获取路径：Support网站。

帮助中心 > AI开发平台ModelArts > 最佳实践 > AIGC模型训练推理
使用llm-compressor工具量化 - AI开发平台ModelArts

使用量化模型使用量化模型需要在NPU的机器上运行。启动vLLM前，请开启图模式（参考步骤六启动推理服务中的配置环境变量），启动服务的命令和启动非量化模型一致。父主题：推理模型量化

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配PyTorch NPU推理指导（6.3.909） > 推理模型量化
各个模型训练前文件替换 - AI开发平台ModelArts

d_patch/models/falcon2/ 复制config.json文件至加载的权重文件/tokenizer目录下，参考路径上传代码和权重文件到工作环境中的步骤3。 cp -f config.json {work_dir}/tokenizers/falcon-11B/ glm4-9b模型

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配LlamaFactory PyTorch NPU训练指导（6.3.909） > 训练脚本说明
自动学习项目中，如何进行增量训练？ - AI开发平台ModelArts

在数据标注页面，单击未标注页签，在此页面中，您可以单击添加图片，或者增删标签。如果增加了图片，您需要对增加的图片进行重新标注。如果您增删标签，建议对所有的图片进行排查和重新标注。对已标注的数据，也需要检查是否需要增加新的标签。在图片都标注完成后，单击右上角“开始训练”，在“训练设置”中，在“增量训练版本

 帮助中心 > AI开发平台ModelArts > 常见问题 > Standard自动学习 > 模型训练
创建Notebook实例后无法打开页面，如何处理？ - AI开发平台ModelArts

代码时比较耗费资源。建议先停止当前Notebook实例，然后重新启动。报错504 如果报此错误时，请提工单或拨打热线电话协助解决。提工单和热线电话请参见：https://www.huaweicloud.com/service/contact.html。报错500 Notebook

帮助中心 > AI开发平台ModelArts > 故障排除 > 开发环境 > 实例故障
权限配置 - AI开发平台ModelArts
权限配置 - AI开发平台ModelArts

如果需要给子用户开通专属资源池的创建、更新、删除权限，此处要勾选ModelArts FullAccess，请谨慎配置。 ModelArts FullAccess权限和ModelArts CommonOperations权限只能二选一，不能同时选。 SFS弹性文件服务弹性文件服务SFS Turbo的所有权限。使用SFS服务时需要配置。

帮助中心 > AI开发平台ModelArts > 最佳实践 > 历史待下线案例 > 专属资源池训练 > 基本配置
套餐包续费后为什么没有扣减？ - AI开发平台ModelArts

套餐包“续费”后不会立即生效。当前周期到期后，新周期才会生效。如果当前周期内用量提前耗尽，可能出现用量中断的情况。您可通过在“费用中心 > 订单管理 > 续费管理”页面，在“手动续费项”中单击当前套餐包操作列的“再次购买”，叠加使用资源套餐包。“再次购买”可使新购套餐包立即生效，避免出现用量中断的情况。

帮助中心 > AI开发平台ModelArts > 计费说明 > 计费FAQ
断点续训练 - AI开发平台ModelArts

AIN_ITERS、MBS、GBS、TP、PP、WORK_DIR为非必填，有默认值。图1 保存的ckpt 可以参考查看日志和性能操作，查看断点续训练日志和性能。父主题：预训练

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > Baichuan2-13B模型基于DevServer适配PyTorch NPU训练指导（6.3.904） > 预训练
标注图像分类数据 - AI开发平台ModelArts

看已完成标注的图片，或者通过右侧的“全部标签”列表，了解当前已完成的标签名称和标签数量。同步或添加图片在“数据标注”节点单击“实例详情”进入数据标注页面，数据标注的图片来源有两种，通过本地添加图片和同步OBS中的图片数据。图3 添加本地图片图4 同步OBS图片数据添加数

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用自动学习实现零代码AI开发 > 使用自动学习实现图像分类
Lite Cluster资源管理介绍 - AI开发平台ModelArts

s面向此类客户提供了自助升级专属资源池GPU/Ascend驱动的能力。监控Lite Cluster资源：ModelArts支持使用AOM和Prometheus对资源进行监控，方便您了解当前的资源使用情况。释放Lite Cluster资源：针对不再使用的Lite Cluster资源，您可以释放资源。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster资源管理
IEF节点边缘服务部署失败 - AI开发平台ModelArts

t Administrator权限，否则将无法成功部署边缘服务。具体可参见IEF的权限说明。处理方法1 在ModelArts管理控制台，选择“权限管理”。在用户名对应的“授权内容”列，单击“查看权限”，确认用户的委托权限是否已包含Tenant Administrator。图1

帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 服务部署
训练作业运行失败，出现NCCL报错 - AI开发平台ModelArts

returned Connection refused, retrying”。原因分析 NCCL是一个提供GPU间通信原语的库，实现集合通信和点对点发送/接收原语。当训练作业出现NCCL的报错时，可以通过调整NCCL的环境变量尝试解决问题。处理步骤进入状态“运行失败”的训练作业

 帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 训练作业运行失败
续费概述 - AI开发平台ModelArts
续费概述 - AI开发平台ModelArts

源状态变为“已冻结”。超过宽限期仍未续费将进入保留期，如果保留期内仍未续费，资源将被自动删除。华为云根据客户等级定义了不同客户的宽限期和保留期时长。在专属资源池到期前均可开通自动续费，到期前7日凌晨3:00首次尝试自动续费，如果扣款失败，每天凌晨3:00尝试一次，直至专属资

 帮助中心 > AI开发平台ModelArts > 计费说明 > 续费
查询数据集列表 - AI开发平台ModelArts

dataset_name="dataset") print(dataset_list) 示例四：分页查询数据集列表 # 默认一次返回10条数据集记录，可通过设置limit和offset进行分页查询 dataset_list = Dataset.list_datasets(session, offset=0, limit=50)

帮助中心 > AI开发平台ModelArts > SDK参考 > 数据管理 > 数据集管理
训练物体检测模型 - AI开发平台ModelArts

区分能力。 accuracy：准确率所有样本中，模型正确预测的样本比率，反映模型对样本整体的识别能力。 f1：F1值 F1值是模型精确率和召回率的加权调和平均，用于评价模型的好坏，当F1较高时说明模型效果较好。同一个自动学习项目可以训练多次，每次训练会注册一个新的AI应用一个版本。如第一次训练版本号为“0

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用自动学习实现零代码AI开发 > 使用自动学习实现物体检测
在Linux上安装配置Grafana - AI开发平台ModelArts

单击“入方向规则”，入方向放开TCP协议的3000端口，出方向默认全部放通。在浏览器中输入“http://{弹性公网IP}:3000”，即可进行访问。首次登录用户名和密码为admin，登录成功后请根据提示修改密码。父主题：安装配置Grafana

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > ModelArts Standard资源监控 > 使用Grafana查看AOM中的监控指标 > 安装配置Grafana
上传本地文件至JupyterLab - AI开发平台ModelArts

解压命令的更多使用说明可以在主流搜索引擎中查找Linux解压命令操作。多个文件同时上传时，JupyterLab窗口最下面会显示上传文件总数和已上传文件数。上传文件入口方式一：使用JupyterLab打开一个运行中的Notebook环境。图1 直接将文件拖拽到JupyterLab窗口左边的空白处上传。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Notebook进行AI开发调试 > 通过JupyterLab在线使用Notebook实例进行AI开发 > 上传文件至JupyterLab
使用AWQ量化 - AI开发平台ModelArts

下载并安装AutoAWQ源码。 bash build.sh 2、运行“examples/quantize.py”文件进行模型量化，量化时间和模型大小有关，预计30分钟~3小时。 export ASCEND_RT_VISIBLE_DEVICES=0 #设置使用NPU单卡执行模型量化

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配PyTorch NPU推理指导（6.3.907） > 推理模型量化
自定义镜像训练作业失败定位思路 - AI开发平台ModelArts

or directory”。提示找不到包等错误，请参见训练作业日志中提示“No module named .*”。 Ascend启动脚本和初始化脚本问题。确认相关脚本是否来源于官方文档并且是否严格按照官方文档使用。比如确认脚本名称是否正常、脚本路径是否正常。具体请参见示例：从

 帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 训练作业运行失败

总条数： 1655

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

SFT全参微调任务 - AI开发平台ModelArts

SDXL Diffusers框架基于Devserver适配PyTorch NPU推理指导（6.3.902） - AI开发平台ModelArts

使用llm-compressor工具量化 - AI开发平台ModelArts

各个模型训练前文件替换 - AI开发平台ModelArts

自动学习项目中，如何进行增量训练？ - AI开发平台ModelArts

创建Notebook实例后无法打开页面，如何处理？ - AI开发平台ModelArts

权限配置 - AI开发平台ModelArts

套餐包续费后为什么没有扣减？ - AI开发平台ModelArts

断点续训练 - AI开发平台ModelArts

标注图像分类数据 - AI开发平台ModelArts

Lite Cluster资源管理介绍 - AI开发平台ModelArts

IEF节点边缘服务部署失败 - AI开发平台ModelArts

训练作业运行失败，出现NCCL报错 - AI开发平台ModelArts

续费概述 - AI开发平台ModelArts

查询数据集列表 - AI开发平台ModelArts

训练物体检测模型 - AI开发平台ModelArts

在Linux上安装配置Grafana - AI开发平台ModelArts

上传本地文件至JupyterLab - AI开发平台ModelArts

使用AWQ量化 - AI开发平台ModelArts

自定义镜像训练作业失败定位思路 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线