搜索_华为云

训练启动脚本说明和参数配置 - AI开发平台ModelArts

训练启动脚本说明和参数配置本代码包中集成了不同模型的训练脚本，并可通过不同模型中的训练脚本一键式运行。训练脚本可判断是否完成预处理后的数据和权重转换的模型。若未完成，则执行脚本，自动完成数据预处理和权重转换的过程。若用户进行自定义数据集预处理以及权重转换，可通过编辑 1_preprocess_data.sh

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU训练指导（6.3.909） > 训练脚本说明
使用基础镜像 - AI开发平台ModelArts

使用基础镜像通过ECS获取和上传基础镜像将镜像上传至SWR服务后，可创建训练作业，在“选择镜像”中选择SWR中基础镜像。由于基础镜像内需要安装固定版本依赖包，如果直接使用基础镜像进行训练，每次创建训练作业时，训练作业的图1中都需要执行install.sh文件，来安装依赖以及下载完整代码

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配PyTorch NPU训练指导（6.3.909） > 准备工作 > 准备镜像
创建AI应用失败，如何定位和处理问题？ - AI开发平台ModelArts

这种报错一般是因为所用镜像系统引擎和构建镜像的系统引擎不一致引起的，例如使用的是x86的镜像却标记的是arm的系统架构。可以通过查看AI应用详情看到配置的系统运行架构。基础镜像的系统架构详情可以参考推理基础镜像列表。父主题： AI应用管理

 帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > AI应用管理
导入模型 - AI开发平台ModelArts
导入模型 - AI开发平台ModelArts

如果未输入该参数，系统会自动生成模型name。 model_version 是 String 模型版本，格式需为“数值.数值.数值”，其中数值为1-2位正整数。版本不可以出现以0开头的版本号形式，如“01.01.01”等。 publish 否 Bool 是否发布模型。

帮助中心 > AI开发平台ModelArts > SDK参考 > 模型管理
Yolov8基于DevServer适配MindSpore Lite推理指导（6.3.909） - AI开发平台ModelArts

宿主机和容器使用不同的文件系统，work_dir为宿主机中工作目录，目录下存放着训练所需代码、数据等文件。container_dir为要挂载到的容器中的目录。为方便两个地址可以相同。 shm-size：共享内存大小。

帮助中心 > AI开发平台ModelArts > 最佳实践 > AIGC模型训练推理
查询训练作业列表 - AI开发平台ModelArts

表44 Resource 参数参数类型描述 policy String 训练作业资源规格模式，可选值如下：“regular”、“economic”、“turbo”。 flavor_id String 训练作业选择的资源规格ID。

帮助中心 > AI开发平台ModelArts > SDK参考 > 训练管理 > 训练作业
使用ModelArts VS Code插件调试训练ResNet50图像分类模型 - AI开发平台ModelArts

根据不同的操作系统选择不同的安装包。创建Notebook实例。登录ModelArts控制台，单击左侧导航“开发空间 > Notebook”，然后单击“创建”。

帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard开发环境
使用Prometheus查看Lite Cluster监控指标 - AI开发平台ModelArts

该YAML用于管理Prometheus的配置，部署Prometheus时通过文件系统挂载的方式，容器可以使用这些配置。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster资源管理 > 监控Lite Cluster资源
自定义镜像导入配置运行时依赖无效 - AI开发平台ModelArts

原因分析自定义镜像导入不支持配置运行时依赖，系统不会自动安装所需要的pip依赖包。处理方法重新构建镜像。在构建镜像的dockerfile文件中安装pip依赖包，例如安装Flask依赖包。

帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > AI应用管理
GPU A系列裸金属服务器使用CUDA cudaGetDeviceCount()提示CUDA initializat失败 - AI开发平台ModelArts

GPU A系列裸金属服务器使用CUDA cudaGetDeviceCount()提示CUDA initializat失败问题现象在A系列GPU裸金属服务器上，系统环境是ubuntu20.04+nvidia515+cuda11.7，使用Pytorch2.0时出现如下错误： CUDA

帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Server
Qwen-VL基于DevServer适配Pytorch NPU的推理指导（6.3.909） - AI开发平台ModelArts

宿主机和容器使用不同的文件系统，work_dir为宿主机中工作目录，目录下存放着训练所需代码、数据等文件。container_dir为要挂载到的容器中的目录。为方便两个地址可以相同。 shm-size：共享内存大小。

帮助中心 > AI开发平台ModelArts > 最佳实践 > AIGC模型训练推理
报错“Permissions for 'x:/xxx.pem' are too open”如何解决？ - AI开发平台ModelArts

原因分析二：当操作系统为macOS/Linux时，可能是密钥文件或放置密钥的文件夹权限问题，请参考解决方法二处理。

帮助中心 > AI开发平台ModelArts > 故障排除 > 开发环境 > VS Code连接开发环境失败故障处理
GPU A系列裸金属服务器如何进行RoCE性能带宽测试？ - AI开发平台ModelArts

华为云Ant8裸金属服务器使用Ubuntu20.04操作系统默认已经安装IB驱动。）

帮助中心 > AI开发平台ModelArts > 常见问题 > Lite Server
LLaVA模型基于DevServer适配PyTorch NPU预训练指导（6.3.906） - AI开发平台ModelArts

宿主机和容器使用不同的文件系统，work_dir为宿主机中工作目录，目录下存放着训练所需代码、数据等文件。container_dir为要挂载到的容器中的目录。为方便两个地址可以相同。 shm-size：共享内存大小。

帮助中心 > AI开发平台ModelArts > 最佳实践 > AIGC模型训练推理
扩缩容Lite Cluster资源池 - AI开发平台ModelArts

扩缩容完成后，节点的可用区分布由系统后台随机选择。选择指定AZ时，可指定扩缩容完成后节点的可用区分布。图1 资源配置（单节点方式）若购买资源池时，节点数量采用整柜方式购买（部分规格支持），则在扩缩容时为整柜方式扩缩容，目标节点总数等于“数量*整柜”。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster资源管理
Open-Sora 1.0基于DevServer适配PyTorch NPU训练指导（6.3.905） - AI开发平台ModelArts

宿主机和容器使用不同的文件系统。work_dir为宿主机中工作目录，目录下存放着训练所需代码、数据等文件。container_work_dir为要挂载到的容器中的目录。为方便两个地址可以相同。 ${image_name}：代表镜像地址。

帮助中心 > AI开发平台ModelArts > 最佳实践 > AIGC模型训练推理
内存不足如何处理？ - AI开发平台ModelArts

内存不足如何处理？问题现象在部署或升级在线服务时，如果部署或升级失败，并且在事件中出现如下类似提示。图1 内存不足提示样例1 运行中服务出现告警时，在事件中出现建议：内存不足，请增加内存。图2 内存不足提示样例2 原因分析部署或升级时出现该提示，可能原因是选择的计算节点规格内存太小

 帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 服务部署
ModelArts - AI开发平台ModelArts
ModelArts - AI开发平台ModelArts

功能总览功能总览全部自动学习 Workflow 开发工具算法管理训练管理 AI应用管理部署上线镜像管理资源池 AI Gallery ModelArts SDK 昇腾生态自动学习自动学习是帮助人们实现AI应用的低门槛、高灵活、零代码的定制化模型开发工具。自动学习功能根据标注数据自动设计模型

 帮助中心 > AI开发平台ModelArts > 功能总览
LLaVA模型基于DevServer适配PyTorch NPU推理指导（6.3.906） - AI开发平台ModelArts

宿主机和容器使用不同的文件系统，work_dir为宿主机中工作目录，目录下存放着训练所需代码、数据等文件。container_dir为要挂载到的容器中的目录。为方便两个地址可以相同。 shm-size：共享内存大小。

帮助中心 > AI开发平台ModelArts > 最佳实践 > AIGC模型训练推理
通过Token认证的方式访问在线服务 - AI开发平台ModelArts

Windows系统建议使用Postman。方式二：使用curl命令发送预测请求。Linux系统建议使用curl命令。方式三：使用Python语言发送预测请求。方式四：使用Java语言发送预测请求。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard部署模型并推理预测 > 将AI应用部署为实时推理作业 > 访问在线服务支持的认证方式

总条数： 1324

上一页
1
...
44
45
46
...
67
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

训练启动脚本说明和参数配置 - AI开发平台ModelArts

使用基础镜像 - AI开发平台ModelArts

创建AI应用失败，如何定位和处理问题？ - AI开发平台ModelArts

导入模型 - AI开发平台ModelArts

Yolov8基于DevServer适配MindSpore Lite推理指导（6.3.909） - AI开发平台ModelArts

查询训练作业列表 - AI开发平台ModelArts

使用ModelArts VS Code插件调试训练ResNet50图像分类模型 - AI开发平台ModelArts

使用Prometheus查看Lite Cluster监控指标 - AI开发平台ModelArts

自定义镜像导入配置运行时依赖无效 - AI开发平台ModelArts

GPU A系列裸金属服务器使用CUDA cudaGetDeviceCount()提示CUDA initializat失败 - AI开发平台ModelArts

Qwen-VL基于DevServer适配Pytorch NPU的推理指导（6.3.909） - AI开发平台ModelArts

报错“Permissions for 'x:/xxx.pem' are too open”如何解决？ - AI开发平台ModelArts

GPU A系列裸金属服务器如何进行RoCE性能带宽测试？ - AI开发平台ModelArts

LLaVA模型基于DevServer适配PyTorch NPU预训练指导（6.3.906） - AI开发平台ModelArts

扩缩容Lite Cluster资源池 - AI开发平台ModelArts

Open-Sora 1.0基于DevServer适配PyTorch NPU训练指导（6.3.905） - AI开发平台ModelArts

内存不足如何处理？ - AI开发平台ModelArts

ModelArts - AI开发平台ModelArts

LLaVA模型基于DevServer适配PyTorch NPU推理指导（6.3.906） - AI开发平台ModelArts

通过Token认证的方式访问在线服务 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线