搜索_华为云

Cluster资源池节点故障如何定位 - AI开发平台ModelArts

发起维修流程。 NT_GPU_SMI_RUNTIME GPU 其他 nvidia-smi执行错误，超时或者不存在。执行nvidia-smi退出码非0。发起维修流程。 NT_GPU_SMI_ECC_COUNT GPU 显存 ECC错误到达64次通过nvidia-smi -a查询到Retired

帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Cluster
删除资源标签 - AI开发平台ModelArts

TmsTagForDelete 参数是否必选参数类型描述 key 是 String TMS标签的key。 value 否 String TMS标签的value，非必填。响应参数状态码： 400 表5 响应Body参数参数参数类型描述 error_code String ModelArts错误码。

帮助中心 > AI开发平台ModelArts > API参考 > 服务管理
创建Notebook实例 - AI开发平台ModelArts

约束限制：每种存储类型最多支持挂载5个。扩展存储挂载目录不允许重复，不允许挂载到黑名单目录，允许嵌套挂载。不允许挂载的黑名单目录为以下前缀匹配的目录： /data/、/cache/、/dev/、/etc/、/bin/、/lib/、/sbin/、/modelarts/、/train

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Notebook进行AI开发调试
部署推理服务 - AI开发平台ModelArts

--dtype：模型推理的数据类型。支持FP16和BF16数据类型推理。float16表示FP16，bfloat16表示BF16。如果不指定，则根据输入数据自动匹配数据类型。使用不同的dtype会影响模型精度。如果使用开源权重，建议不指定dtype，使用开源权重默认的dtype。 --tensor-p

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配PyTorch NPU推理指导（6.3.907）
Eagle投机小模型训练 - AI开发平台ModelArts

zip的llm_tools/spec_decode/EAGLE目录下。在目录下执行如下命令，即可安装Eagle。 bash build.sh 步骤二：非sharegpt格式数据集转换（可选）如果数据集json文件不是sharegpt格式，而是常见的如下格式，则需要执行convert_to_sharegpt

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.911）
Eagle投机小模型训练 - AI开发平台ModelArts

zip的llm_tools/spec_decode/EAGLE目录下。在目录下执行如下命令，即可安装Eagle。 bash build.sh 步骤二：非sharegpt格式数据集转换（可选）如果数据集json文件不是sharegpt格式，而是常见的如下格式，则需要执行convert_to_sharegpt

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.911）
Eagle投机小模型训练 - AI开发平台ModelArts

zip的llm_tools/spec_decode/EAGLE目录下。在目录下执行如下命令，即可安装Eagle。 bash build.sh 步骤二：非sharegpt格式数据集转换（可选）如果数据集json文件不是sharegpt格式，而是常见的如下格式，则需要执行convert_to_sharegpt

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.911）
推理服务精度评测 - AI开发平台ModelArts

用率，如果模型出现oom报错，调小参数； tensor_parallel_size是使用的卡数； quantization是量化参数，使用非量化权重，去掉quantization参数；如果使用awq、smoothquant或者gptq加载的量化权重，根据量化方式选择对应参数，可选

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配Ascend-vLLM PyTorch NPU推理指导（6.3.912）
服务启动失败 - AI开发平台ModelArts

创建AI应用，确保镜像可以正常启动，并可以在本地curl通返回预期内容。镜像中配置的端口错误模型可以正常启动，但是因为镜像中启用的端口非8080，或者镜像启用的端口与创建模型时配置的端口不一致，导致部署服务时register-agent无法与模型通信，超过一定时间后（最长20分钟）认为模型启动失败。

帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 服务部署
准备声音分类数据 - AI开发平台ModelArts

如果您的数据较多，推荐OBS Browser+上传数据或上传文件夹。上传的数据需满足此类型自动学习项目的数据集要求。在上传数据时，请选择非加密桶进行上传，否则会由于加密桶无法解密导致后期的训练失败。用于训练的音频，至少有2种以上的分类，每种分类的音频数据数不少20条。创建数据集

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用自动学习实现零代码AI开发 > 使用自动学习实现声音分类
模型配置文件编写说明 - AI开发平台ModelArts

on/json” data 在线服务-非必选批量服务-必选 String 请求体以json schema描述。参数说明请参考官方指导。表5 response结构说明参数是否必选参数类型描述 Content-type 在线服务-非必选批量服务-必选 String da

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard部署模型并推理预测 > 创建模型规范参考
管理AI Gallery中的AI应用 - AI开发平台ModelArts

重启AI应用，使环境变量的新增、修改、删除生效。当AI应用的状态为“运行中”时，则在“运行资源设置”处，单击“重启”。当AI应用的状态为非“待启动”时，则环境变量的变更会随应用启动自动生效。管理AI应用可见范围创建AI应用时，默认“可见范围”是“私密”，且“仅自己可见”。创建完成后，支持修改可见范围。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（AI Gallery） > AI Gallery（新版） > 发布和管理AI Gallery中的AI应用
在ModelArts Standard上运行GPU多机多卡训练作业 - AI开发平台ModelArts

再关注OBS的相关操作。可以直接把SFS的目录直接挂载到调试节点的"/mnt/sfs_turbo"目录，或者保证对应目录的内容和SFS盘匹配。调试时建议使用接近的方式，即：启动容器实例时使用"-v"参数来指定挂载某个宿主机目录到容器环境。 docker run -ti -d -v

帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard模型训练 > 基于ModelArts Standard运行GPU训练作业
免费资产和商用资产 - AI开发平台ModelArts

Gallery的“我的订阅”中，不会展示在AI云商店的“买家中心”中。云商店当前付费商品默认发布后是隐藏商品，在Gallery首页将不可见，只有在云商店卖家中心改变商品为非隐藏，Gallery首页付费资产列表才对该商品可见。更多关于商业售卖商品的使用指导请参见《云商店用户指南》，商业售卖商品在华为云云商店的使用流程如下：

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（AI Gallery） > AI Gallery（旧版）
查询作业资源规格 - AI开发平台ModelArts

指定作业的引擎ID，默认为“0”。查询自动学习资源规格无需此参数。 project_type 否 Integer 项目类型。默认为“0”。 0：非自动学习项目。 1：自动学习，图像分类。 2：自动学习，物体检测。 3：自动学习，预测分析。请求消息无请求参数。响应消息响应参数如表3所示。

帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 训练管理（旧版） > 资源和引擎规格接口
发布Workflow到AI Gallery - AI开发平台ModelArts

release_to_gallery(title="资产名称")发布Workflow新资产，版本号为"1.0.0"；如果Workflow包含非gallery的算法，则自动将依赖算法发布至gallery，版本号为"1.0.0"。 Workflow.release_to_gallery(content_id="**"

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Workflow实现低代码AI开发 > 开发Workflow命令参考 > 发布Workflow
查看训练作业资源占用情况 - AI开发平台ModelArts

增强的速度。模型保存不要太频繁：模型保存操作一般会阻塞训练，如果模型较大，并且较频繁地进行保存，就会影响GPU/NPU利用率。同理，其他非GPU/NPU操作尽量不要阻塞训练主进程太多的时间，如日志打印，保存训练指标信息等。父主题：管理模型训练作业

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 管理模型训练作业
在ECS上构建自定义镜像并在Notebook中使用 - AI开发平台ModelArts

供）。如果使用的基础镜像是第三方镜像（非ModelArts提供的公共镜像），Dockerfile文件中需要添加uid为1000的用户ma-user和gid为100的用户组ma-group，具体可参考Dockerfile文件（基础镜像为非ModelArts提供）。本例的Dock

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 制作自定义镜像用于ModelArts Standard > 制作自定义镜像用于创建Notebook
自动学习训练作业失败 - AI开发平台ModelArts

排除或删除四通道格式的图片。检查标注框是否符合要求（物体检测）目前物体检测仅支持矩形标注框。请确保所有图片的标注框为矩形框。如果使用非矩形框，可能存在以下报错： Error bandbox. 针对其他类型的项目（图像分类、声音分类等），无需关注此问题。预测分析作业失败的排查思路

 帮助中心 > AI开发平台ModelArts > 故障排除 > 自动学习 > 模型训练
msprobe精度比对 - AI开发平台ModelArts

循环体 debugger.stop() # 一般在训练循环末尾结束工具。 debugger.step() # 在训练循环的最后需要重置工具，非循环场景不需要。具体的config.json的配置要求请参见介绍。创建比对compare.json文件。单卡场景 { "npu_path":

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > msprobe工具使用指导

总条数： 306

上一页
1
...
10
11
12
...
16
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

Cluster资源池节点故障如何定位 - AI开发平台ModelArts

删除资源标签 - AI开发平台ModelArts

创建Notebook实例 - AI开发平台ModelArts

部署推理服务 - AI开发平台ModelArts

Eagle投机小模型训练 - AI开发平台ModelArts

Eagle投机小模型训练 - AI开发平台ModelArts

Eagle投机小模型训练 - AI开发平台ModelArts

推理服务精度评测 - AI开发平台ModelArts

服务启动失败 - AI开发平台ModelArts

准备声音分类数据 - AI开发平台ModelArts

模型配置文件编写说明 - AI开发平台ModelArts

管理AI Gallery中的AI应用 - AI开发平台ModelArts

在ModelArts Standard上运行GPU多机多卡训练作业 - AI开发平台ModelArts

免费资产和商用资产 - AI开发平台ModelArts

查询作业资源规格 - AI开发平台ModelArts

发布Workflow到AI Gallery - AI开发平台ModelArts

查看训练作业资源占用情况 - AI开发平台ModelArts

在ECS上构建自定义镜像并在Notebook中使用 - AI开发平台ModelArts

自动学习训练作业失败 - AI开发平台ModelArts

msprobe精度比对 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线