搜索_华为云

精度调优前准备工作 - AI开发平台ModelArts

在定位精度问题之前，首先需要排除训练脚本及参数配置等差异的干扰。目前大部分精度无法对齐的问题都是由于模型超参数、Python三方库版本、模型源码等与标杆环境（GPU/CPU）设置的不一致导致，为了在定位过程中少走弯路，需要在定位前先对训练环境及代码做有效排查。此外，问题定位主要基于GPU环境和NPU环境上运行的过程

 帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > GPU训练业务迁移至昇腾的通用指导 > PyTorch迁移精度调优
查询训练作业列表 - AI开发平台ModelArts

名称。请求参数表2 请求Body参数参数是否必选参数类型描述 offset 否 Integer 查询作业的页数，最小为0。例如设置为0，则表示从第一页开始查询。 limit 否 Integer 查询作业的每页条目数。最小为1，最大为50。 sort_by 否 String

帮助中心 > AI开发平台ModelArts > API参考 > 训练管理
管理训练容器环境变量 - AI开发平台ModelArts

API网关地址环境变量作业元信息环境变量约束限制为了避免新设置的环境变量与系统环境变量冲突，而引起作业运行异常或失败，请在定义自定义环境变量时，不要使用“MA_”开头的名称。如何修改环境变量用户可以在创建训练作业页面增加新的环境变量，也可以设置新的取值覆盖当前训练容器中预置的环境变量值。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 管理模型训练作业
在ModelArts Studio基于Qwen2-7B模型实现新闻自动分类 - AI开发平台ModelArts

建配置。图4 资源设置表4 部署模型服务参数说明取值样例服务设置服务名称自定义模型服务的名称。参见表5 描述自定义部署模型服务的简介。 - 模型设置部署模型单击“选择模型”，从“我的模型”列表中选择需要部署的模型。参见表5 资源设置资源池类型资源池分为公共资源池与专属资源池。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理
约束与限制 - AI开发平台ModelArts

Gallery中订阅的算法不支持另存为新算法。训练作业卡死检测目前仅支持资源类型为GPU的训练作业。仅使用新版专属资源池训练时才支持设置训练作业优先级。公共资源池和旧版专属资源池均不支持设置训练作业优先级。仅支持PyTorch和MindSpore框架的分布式训练和调测，如果MindSpore要进行多

 帮助中心 > AI开发平台ModelArts > 产品介绍
GP Vnt1裸金属服务器用PyTorch报错CUDA initialization:CUDA unknown error - AI开发平台ModelArts

GP Vnt1裸金属服务器用PyTorch报错CUDA initialization:CUDA unknown error 问题现象在Vnt1 GPU裸金属服务器（Ubuntu18.04系统），安装NVIDIA 470+CUDA 11.4后使用“nvidia-smi”和“nvcc

帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Server
管理Lite Cluster节点 - AI开发平台ModelArts

选择下拉框中支持的操作系统。配置方式选择重置节点的配置方式。按节点比例：重置任务包含多个节点时，可以设置同时被重置节点的最高比例。按实例数量：重置任务包含多个节点时，可以设置同时被重置节点的最大个数。驱动版本可以在下拉框中指定重置节点的驱动版本。图1 重置节点单击“操

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster资源管理
查询算法列表 - AI开发平台ModelArts

resource_requirements Array of resource_requirements objects 算法资源约束，可不设置。设置后，在算法使用于训练作业时，控制台会过滤可用的公共资源池。 advanced_config advanced_config object

帮助中心 > AI开发平台ModelArts > API参考 > 训练管理
使用ModelArts PyCharm插件调试训练ResNet50图像分类模型 - AI开发平台ModelArts

持在GPU或者Ascend上训练，那么可能会报错，需要使用Notebook进行云端调试。设置断点后单击“调试”，可实现代码逐步调试，查看中间变量值。图9 “调试”按钮图10 通过设置断点实现代码调试可单击“运行”按钮，通过日志观察是否能正常训练。图11 “运行”按钮图12

帮助中心 > AI开发平台ModelArts > 最佳实践 > 历史待下线案例
Lite Cluster资源开通 - AI开发平台ModelArts

“写入模式”，包括线性和条带化。以本地持久卷挂载：支持“持久卷写入模式”设置，包括线性和条带化，此处设置的是所有数据盘的写入模式。以临时存储卷挂载：支持“临时卷写入模式”设置，包括线性和条带化，此处设置的是所有数据盘的写入模式。新增规格 - 支持添加多个规格。限制如下：当

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster）
不同机型的对应的软件配套版本 - AI开发平台ModelArts

不同机型的对应的软件配套版本由于弹性集群资源池可选择弹性裸金属或弹性云服务器作为节点资源，不同机型的节点对应的操作系统、适用的CCE集群版本等不相同，为了便于您制作镜像、升级软件等操作，本文对不同机型对应的软件配套版本做了详细介绍。裸金属服务器的对应的软件配套版本表1 裸金属服务器

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster使用前必读
使用MaaS部署模型服务 - AI开发平台ModelArts

置。表1 部署模型服务参数说明服务设置服务名称自定义部署模型服务的名称。支持1~64位，以中文、大小写字母开头，只包含中文、大小写字母、数字、中划线、下划线的名称。描述自定义部署模型服务的简介。支持256字符。模型设置部署模型单击“选择模型”，选择“模型广场”或“我的模型”下面的模型。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Studio）
资源池创建失败的原因与解决方法？ - AI开发平台ModelArts

用户可根据实际业务场景和节点规模，自定义配置容器网段，配置方式如下： ModelArts Standard池，资源池创建阶段指定容器网段，根据实际需要设置更大的容器网段。图7 设置容器网段 ModelArts Lite池，选择/创建具有更大容器网段的CCE集群。CCE容器网段配置参见网络规划。账号冻结导致创建失败？

帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Cluster
数据集版本发布失败 - AI开发平台ModelArts

如果当前账号是个IAM用户（即子账号），需确认当前账号是否具备OBS服务操作权限。请参考OBS权限管理，为当前IAM用户配置“作用范围”为“全局级服务”的“Tenant Administrator”策略，即拥有OBS服务所有操作权限。如果需要限制此IAM用户操作，仅为此用户配置O

帮助中心 > AI开发平台ModelArts > 故障排除 > 自动学习 > 准备数据
执行训练任务（历史版本） - AI开发平台ModelArts

（此参数目前仅适用于Llama3系列模型长序列训练） LR 2.5e-5 学习率设置。 MIN_LR 2.5e-6 最小学习率设置。 SEQ_LEN 4096 要处理的最大序列长度。 MAX_PE 8192 设置模型能够处理的最大序列长度。 TRAIN_ITERS 100 表示训练step迭代次数，根据实际需要修改。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.912） > 执行训练任务
ECS中上传新镜像 - AI开发平台ModelArts

ECS中上传新镜像 Step1 在ECS中Docker登录在SWR中单击右上角的“登录指令”，然后在跳出的登录指定窗口，单击复制临时登录指令。在创建的ECS中粘贴临时登录指令，即可完成登录。图1 复制登录指令 Step2 修改并上传镜像在ECS服务器中输入登录指令后，使用下

 帮助中心 > AI开发平台ModelArts > 最佳实践 > MLLM多模态模型训练推理 > Qwen-VL模型基于Standard+OBS适配PyTorch NPU训练指导（6.3.912） > 准备工作 > 准备镜像
使用WebSocket协议的方式访问在线服务 - AI开发平台ModelArts

使用WebSocket协议的方式访问在线服务背景说明 WebSocket是一种网络传输协议，可在单个TCP连接上进行全双工通信，位于OSI模型的应用层。WebSocket协议在2011年由IETF标准化为RFC 6455，后由RFC 7936补充规范。Web IDL中的WebSocket

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard部署模型并推理预测 > 将模型部署为实时推理作业 > 访问在线服务支持的传输协议
ECS中上传新镜像 - AI开发平台ModelArts

ECS中上传新镜像 Step1 在ECS中Docker登录在SWR中单击右上角的“登录指令”，然后在跳出的登录指定窗口，单击复制临时登录指令。在创建的ECS中粘贴临时登录指令，即可完成登录。图1 复制登录指令 Step2 修改并上传镜像在ECS服务器中输入登录指令后，使用下

 帮助中心 > AI开发平台ModelArts > 最佳实践 > MLLM多模态模型训练推理 > Qwen-VL基于Standard+OBS+SFS适配PyTorch NPU训练指导（6.3.912） > 准备工作 > 准备镜像
执行训练任务（推荐） - AI开发平台ModelArts

（此参数目前仅适用于Llama3系列模型长序列训练） lr 2.5e-5 学习率设置。 min-lr 2.5e-6 最小学习率设置。 SEQ_LEN 4096 要处理的最大序列长度。 MAX_PE 8192 设置模型能够处理的最大序列长度。 train-iters 100 表示训练step迭代次数，根据实际需要修改。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.912） > 执行训练任务
ModelArts Standard的WebSocket在线服务全流程开发 - AI开发平台ModelArts

ModelArts Standard的WebSocket在线服务全流程开发背景说明 WebSocket是一种网络传输协议，可在单个TCP连接上进行全双工通信，位于OSI模型的应用层。WebSocket协议在2011年由IETF标准化为RFC 6455，后由RFC 7936补充规范。Web

帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard推理部署

总条数： 978

上一页
1
...
6
7
8
...
49
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

精度调优前准备工作 - AI开发平台ModelArts

查询训练作业列表 - AI开发平台ModelArts

管理训练容器环境变量 - AI开发平台ModelArts

在ModelArts Studio基于Qwen2-7B模型实现新闻自动分类 - AI开发平台ModelArts

约束与限制 - AI开发平台ModelArts

GP Vnt1裸金属服务器用PyTorch报错CUDA initialization:CUDA unknown error - AI开发平台ModelArts

管理Lite Cluster节点 - AI开发平台ModelArts

查询算法列表 - AI开发平台ModelArts

使用ModelArts PyCharm插件调试训练ResNet50图像分类模型 - AI开发平台ModelArts

Lite Cluster资源开通 - AI开发平台ModelArts

不同机型的对应的软件配套版本 - AI开发平台ModelArts

使用MaaS部署模型服务 - AI开发平台ModelArts

资源池创建失败的原因与解决方法？ - AI开发平台ModelArts

数据集版本发布失败 - AI开发平台ModelArts

执行训练任务（历史版本） - AI开发平台ModelArts

ECS中上传新镜像 - AI开发平台ModelArts

使用WebSocket协议的方式访问在线服务 - AI开发平台ModelArts

ECS中上传新镜像 - AI开发平台ModelArts

执行训练任务（推荐） - AI开发平台ModelArts

ModelArts Standard的WebSocket在线服务全流程开发 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线