搜索_华为云

发布Notebook - AI开发平台ModelArts

发布Notebook 在AI Gallery中，您可以将个人开发的Notebook代码免费分享给他人使用。前提条件在ModelArts的Notebook或者CodeLab中已创建好ipynb文件，开发指导可参见开发工具。发布Notebook 登录ModelArts管理控制台。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（AI Gallery） > AI Gallery（旧版） > 发布分享
通过AK/SK认证的方式访问在线服务 - AI开发平台ModelArts

AK/SK签名认证方式，仅支持Body体12M以内，12M以上的请求，需使用Token认证。客户端须注意本地时间与时钟服务器的同步，避免请求消息头X-Sdk-Date的值出现较大误差。因为API网关除了校验时间格式外，还会校验该时间值与网关收到请求的时间差，如果时间差超过15分钟，API网关将拒绝请求。约束限制

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard部署模型并推理预测 > 将模型部署为实时推理作业 > 访问在线服务支持的认证方式
准备代码 - AI开发平台ModelArts
准备代码 - AI开发平台ModelArts

准备代码本教程中用到的训练、推理代码如下表所示，请提前准备好。获取模型软件包和权重文件本方案支持的模型对应的软件和依赖包获取地址如表1所示，模型列表、对应的开源权重获取地址如表1所示。表1 模型对应的软件包和依赖包获取地址代码包名称代码说明下载地址 AscendCloud-6

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配LlamaFactory PyTorch NPU训练指导（6.3.911） > 准备工作
准备代码 - AI开发平台ModelArts
准备代码 - AI开发平台ModelArts

准备代码本教程中用到的训练、推理代码如下表所示，请提前准备好。获取模型软件包和权重文件本方案支持的模型对应的软件和依赖包获取地址如表1所示，模型列表、对应的开源权重获取地址如表1所示。表1 模型对应的软件包和依赖包获取地址代码包名称代码说明下载地址 AscendCloud-6

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配LlamaFactory PyTorch NPU训练指导（6.3.910） > 准备工作
自动学习训练作业失败 - AI开发平台ModelArts

再启动训练作业。当预处理后的数据不满足训练要求时，也会导致训练作业运行失败。对于数据集中列的过滤策略如下所示：如果某一列空缺的比例大于系统设定的阈值（0.9），此列数据在训练时将被剔除。如果某一列只有一种取值（即每一行的数据都是一样的），此列数据在训练时将被剔除。对于非纯

 帮助中心 > AI开发平台ModelArts > 故障排除 > 自动学习 > 模型训练
使用AI Gallery在线推理服务部署模型 - AI开发平台ModelArts

Gallery工具链服务部署完成后将一直处于“运行中”。指定时长：设置作业运行几小时后停止，当AI Gallery工具链服务运行时长达到指定时长时，系统将会暂停作业。时长设置不能超过计算资源的剩余额度。说明：如果选择付费资源，则请确认账号未欠费，且余额高于所选计算规格的收费标准，否则可能会导致AI

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（AI Gallery） > AI Gallery（新版）
模型训练使用流程 - AI开发平台ModelArts

模型训练使用流程 AI模型开发的过程，称之为Modeling，一般包含两个阶段：开发阶段：准备并配置环境，调试代码，使代码能够开始进行深度学习训练，推荐在ModelArts开发环境中调试。实验阶段：调整数据集、调整超参等，通过多轮实验，训练出理想的模型，推荐在ModelArts训练中进行实验。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型
在ModelArts上如何获得RANK_TABLE_FILE用于分布式训练？ - AI开发平台ModelArts

env | grep RANK 在训练作业中，您可以在训练启动脚本的首行加入如下代码，把RANK_TABLE_FILE的值打印出来： 1 os.system('env | grep RANK') 父主题： Standard模型训练

 帮助中心 > AI开发平台ModelArts > 常见问题 > Standard模型训练
TensorFlow-1.8作业连接OBS时反复出现提示错误 - AI开发平台ModelArts

import os os.environ["TF_CPP_MIN_LOG_LEVEL"]='1' # 默认的显示等级，显示所有信息 os.environ["TF_CPP_MIN_LOG_LEVEL"]='2' # 只显示warning和Error os.envir

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > OBS操作相关故障
MXNet创建kvstore时程序被阻塞，无报错 - AI开发平台ModelArts

重新发送。 import os os.environ['PS_VERBOSE'] = '2' os.environ['PS_RESEND'] = '1' 其中，“os.environ['PS_VERBOSE'] = '2'”为打印所有的通信信息。“os.environ['PS_RESEND']

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 业务代码问题
ModelArts Standard使用流程 - AI开发平台ModelArts

ModelArts Standard使用流程本章节旨在帮助您了解ModelArts Standard的基本使用方法，帮助您快速上手ModelArts服务。面向熟悉代码编写和调测，熟悉常见AI引擎的开发者，ModelArts不仅提供了在线代码开发环境，还提供了从数据准备、模型训

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard）
Yaml配置文件参数配置说明 - AI开发平台ModelArts

model_name_or_path /home/ma-user/ws/tokenizers/Qwen2-72B 必须修改。加载tokenizer与Hugging Face权重时，对应的存放绝对或相对路径。请根据实际规划修改。 do_train true 指示脚本执行训练步骤，用来控制是

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配LlamaFactory PyTorch NPU训练指导（6.3.908） > 训练脚本说明
无法导入模块 - AI开发平台ModelArts

path”中，再导入： import os import sys # __file__为获取当前执行脚本main.py的绝对路径 # os.path.dirname(__file__)获取main.py的父目录，即project_dir的绝对路径 current_path = os.path.dirname(__file__)

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 云上迁移适配故障
如何安装第三方包，安装报错的处理方法 - AI开发平台ModelArts

on this platform”报错，具体解决方法请参见2。处理方法安装第三方包 pip中存在的包，使用如下代码： import os os.system('pip install xxx') pip源中不存在的包，此处以“apex”为例，请您用如下方式将安装包上传到OBS桶中。

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 云上迁移适配故障
创建节点池 - AI开发平台ModelArts

参数类型描述 os.modelarts/billing.mode 否 String 计费模式，可选值如下： 0：按需计费 1：包周期计费 os.modelarts/period.num 否 String 包周期订购周期，比如2。当计费模式为包周期时该参数必传。 os.modelarts/period

帮助中心 > AI开发平台ModelArts > API参考 > 节点池管理
重置节点后无法正常使用？ - AI开发平台ModelArts

原因分析在ModelArts侧进行节点重置后，modelarts-os会向节点添加准入污点，进行节点准入，而因为集群volcano没有污点容忍，且集群内只有一个节点，导致volcano无法启动，进而导致modelarts-os节点上管理污点的maos-node-agent容器无法启动，使得污点无法被自动清理。

帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Cluster
SD1.5&SDXL ComfyUI、WebUI、Diffusers套件适配PyTorch NPU的推理指导（6.3.912） - AI开发平台ModelArts

SD1.5&SDXL ComfyUI、WebUI、Diffusers套件适配PyTorch NPU的推理指导（6.3.912）本文档主要介绍如何在DevServer环境中部署Stable Diffusion模型对应SD1.5和SDXL的ComfyUI、Webui和Diffusers框架，使用NPU卡进行推理。

帮助中心 > AI开发平台ModelArts > 最佳实践 > 文生图模型训练推理
自如何获取ModelArts训练容器中的文件实际路径？ - AI开发平台ModelArts

自如何获取ModelArts训练容器中的文件实际路径？如果容器中的文件实际路径不清楚，可以使用Python获取当前文件路径的方法获取。 os.getcwd() #获取文件当前工作目录路径（绝对路径） os.path.realpath(__ file __) #获得文件所在的路径（绝对路径）也可在搜索引擎寻找

 帮助中心 > AI开发平台ModelArts > 常见问题 > Standard模型训练
日志提示“RuntimeError: Cannot re-initialize CUDA in forked subprocess” - AI开发平台ModelArts

Initialize the distributed environment. """ os.environ['MASTER_ADDR'] = '127.0.0.1' os.environ['MASTER_PORT'] = '29500' dist.init

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > GPU相关问题
训练tokenizer文件说明 - AI开发平台ModelArts

write(ttf.content) 35 # FONT_PATH = "SimSun.ttf" FONT_PATH = os.path.join(os.getenv('DATA'), "SimSun.ttf" 父主题：训练脚本说明

 帮助中心 > AI开发平台ModelArts > 最佳实践 > MLLM多模态模型训练推理 > Qwen-VL基于Standard+OBS+SFS适配PyTorch NPU训练指导（6.3.912） > 训练脚本说明

总条数： 970

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

发布Notebook - AI开发平台ModelArts

通过AK/SK认证的方式访问在线服务 - AI开发平台ModelArts

准备代码 - AI开发平台ModelArts

准备代码 - AI开发平台ModelArts

自动学习训练作业失败 - AI开发平台ModelArts

使用AI Gallery在线推理服务部署模型 - AI开发平台ModelArts

模型训练使用流程 - AI开发平台ModelArts

在ModelArts上如何获得RANK_TABLE_FILE用于分布式训练？ - AI开发平台ModelArts

TensorFlow-1.8作业连接OBS时反复出现提示错误 - AI开发平台ModelArts

MXNet创建kvstore时程序被阻塞，无报错 - AI开发平台ModelArts

ModelArts Standard使用流程 - AI开发平台ModelArts

Yaml配置文件参数配置说明 - AI开发平台ModelArts

无法导入模块 - AI开发平台ModelArts

如何安装第三方包，安装报错的处理方法 - AI开发平台ModelArts

创建节点池 - AI开发平台ModelArts

重置节点后无法正常使用？ - AI开发平台ModelArts

SD1.5&SDXL ComfyUI、WebUI、Diffusers套件适配PyTorch NPU的推理指导（6.3.912） - AI开发平台ModelArts

自如何获取ModelArts训练容器中的文件实际路径？ - AI开发平台ModelArts

日志提示“RuntimeError: Cannot re-initialize CUDA in forked subprocess” - AI开发平台ModelArts

训练tokenizer文件说明 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线