搜索_华为云

日志提示“cuda runtime error (10) : invalid device ordinal at xxx” - AI开发平台ModelArts

请检查CUDA_VISIBLE_DEVICES设置的值是否与作业规格匹配。例如您选择4卡规格的作业，实际可用的卡ID为0、1、2、3，但是您在进行cuda相关的运算时，例如"tensor.to(device="cuda:7")"，将张量搬到了7号GPU卡上，超过了实际可用的ID号。如果cuda相关运

 帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > GPU相关问题
如何切分ModelArts数据集？ - AI开发平台ModelArts

一般默认不启用该功能。启用后，需设置对应的训练验证比例。输入“训练集比例”，数值只能是0~1区间内的数。设置好“训练集比例”后，“验证集比例”自动填充。“训练集比例”加“验证集比例”等于1。 “训练集比例”即用于训练模型的样本数据比例；“验证集比例”即用于验证模型的样本数据比例。“训练验证比例”会影响训练模板的性能。

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard数据准备
切换Lite Server服务器操作系统 - AI开发平台ModelArts

切换操作系统动作。在裸金属服务的更多选项中，单击切换操作系统，如下图所示。图2 切换操作系统在切换操作系统界面，选择上一步接收到的共享镜像即可。使用BMS Go SDK的方式切换操作系统以下为BMS使用Go语言通过SDK方式切换操作系统的示例代码。 package main

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Server） > Lite Server资源管理
在ModelArts中如何将图片划分到验证集或者训练集？ - AI开发平台ModelArts

验证集，不支持指定。切分比例的指定：在发布数据集时，仅“图像分类”、“物体检测”、“文本分类”和“声音分类”类型数据集支持进行数据切分功能。一般默认不启用该功能。启用后，需设置对应的训练验证比例。输入“训练集比例”，数值只能是0~1区间内的数。设置好“训练集比例”后，“验

 帮助中心 > AI开发平台ModelArts > 常见问题 > Standard数据准备
在AOM控制台查看ModelArts所有监控指标 - AI开发平台ModelArts

物理专属池对应的资源池id。 pool_name 物理专属池对应的资源池name。 logical_pool_id 逻辑子池的id。 logical_pool_name 逻辑子池的name。 gpu_uuid 容器使用的GPU的UUID。 gpu_index 容器使用的GPU的索引。 gpu_type

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > ModelArts Standard资源监控
创建训练作业 - AI开发平台ModelArts

自定义镜像训练作业的启动命令。 log_url 否 String 训练作业日志的保存位置，是一个OBS路径，如"obs://xx/yy/zz/"。 local_code_dir 否 String 算法的代码目录下载到训练容器内的本地路径。规则：必须为/home下的目录。 v1兼容模式下，当前字段不生效。

帮助中心 > AI开发平台ModelArts > SDK参考 > 训练管理 > 训练作业
从0-1制作自定义镜像并创建模型 - AI开发平台ModelArts

自定义镜像的API接口功能，无误后将自定义镜像上传至SWR服务。将自定义镜像创建为模型：将上传至SWR服务的镜像导入ModelArts的模型。将模型部署为在线服务：将导入的模型部署上线。本地构建镜像以linux x86_x64架构的主机为例，您可以购买相同规格的ECS或者

 帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard推理部署
在ECS中通过Dockerfile从0制作自定义镜像用于推理 - AI开发平台ModelArts

定义镜像的API接口功能，无误后将自定义镜像上传至SWR服务。将自定义镜像创建为模型：将上传至SWR服务的镜像导入ModelArts的模型管理。将模型部署为在线服务：将导入的模型部署上线。本地构建镜像以linux x86_x64架构的主机为例，您可以购买相同规格的ECS或

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 制作自定义镜像用于ModelArts Standard > 制作自定义镜像用于推理
训练作业运行失败，出现NCCL报错 - AI开发平台ModelArts

retrying”。原因分析 NCCL是一个提供GPU间通信原语的库，实现集合通信和点对点发送/接收原语。当训练作业出现NCCL的报错时，可以通过调整NCCL的环境变量尝试解决问题。处理步骤进入状态“运行失败”的训练作业详情页，单击“日志”页签，查看NCCL报错。如果出现报错“NCCL

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 训练作业运行失败
订阅算法物体检测YOLOv3 - AI开发平台ModelArts

found。原因分析该报错信息表示验证集中有label在训练集中不存在，可能由于在发布数据集版本进行数据切分时，训练集比例填写为0导致发布的数据全部为验证集，所以出现上述报错。处理方法重新发布数据，切分比例为0.8 或者0.9重新创建训练作业进行训练。父主题：训练作业运行失败

 帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 训练作业运行失败
套餐包 - AI开发平台ModelArts
套餐包 - AI开发平台ModelArts

要，自行购买适用规格的套餐包。适用场景 ModelArts服务支持购买套餐包，根据用户选择使用的资源不同进行收费。您可以根据业务需求选择使用不同规格的套餐包。 ModelArts提供了AI全流程开发的套餐包，面向有AI基础的开发者，提供机器学习和深度学习的算法开发及部署全功能，

帮助中心 > AI开发平台ModelArts > 计费说明 > 计费模式
测试用户权限 - AI开发平台ModelArts

Turbo中单击右上角的“创建文件系统”，如果能正常打开页面，表示当前用户具备SFS的操作权限。验证ECS权限。在左上角的服务列表中，选择ECS服务，进入ECS管理控制台。在ECS管理控制台，单击右上角的“购买弹性云服务器”，如果能正常打开页面，表示当前用户具备ECS的操作权限。验证VPC权限。

帮助中心 > AI开发平台ModelArts > 最佳实践 > 历史待下线案例 > 专属资源池训练 > 基本配置 > 权限配置
Step4 测试用户权限 - AI开发平台ModelArts

ModelArts。验证OBS权限。在左上角的服务列表中，选择OBS服务，进入OBS管理控制台。在OBS管理控制台，单击右上角的“创建桶”，如果能正常打开页面，表示当前用户具备OBS的操作权限。验证SWR权限。在左上角的服务列表中，选择SWR服务，进入SWR管理控制台。

帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard权限管理 > 典型场景配置实践 > 配置ModelArts基本使用权限
使用ModelArts PyCharm插件调试训练ResNet50图像分类模型 - AI开发平台ModelArts

原因是：PyCharm的PYTHONPATH会将Notebook中的环境变量中指定的“PYTHONPATH”进行覆盖，因此，还需要将te包所在的路径添加到PyCharm的“PYTHONPATH”中。 te包的路径通过“pip show te”查看，例如te包返回对应的路径为：“/usr

帮助中心 > AI开发平台ModelArts > 最佳实践 > 历史待下线案例
使用SDK调测多机分布式训练作业 - AI开发平台ModelArts

到指定的obs_path中；将训练作业提交到ModelArts训练服务中，训练作业会使用当前Notebook的镜像来执行训练作业；训练任务得到的输出上传到4指定的obs_path中，日志上传到log_url指定的位置中。在这一步中需要注意的一个问题：如果用户在自己的训练脚

 帮助中心 > AI开发平台ModelArts > SDK参考 > 训练管理 > 训练作业 > 训练作业调测
工具介绍及准备工作 - AI开发平台ModelArts

本章节主要介绍针对LLaMAFactory开发的测试工具benchmark，支持训练、性能对比、下游任务评测、loss和下游任务对比能力。对比结果以excel文件呈现。方便用户验证发布模型的质量。所有配置都通过yaml文件设置，用户查看默认yaml文件即可知道最优性能的配置。目前仅支持SFT指令监督微调训练阶段。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.911） > 训练benchmark工具
工具介绍及准备工作 - AI开发平台ModelArts

本章节主要介绍针对LLaMAFactory开发的测试工具benchmark，支持训练、性能对比、下游任务评测、loss和下游任务对比能力。对比结果以excel文件呈现。方便用户验证发布模型的质量。所有配置都通过yaml文件设置，用户查看默认yaml文件即可知道最优性能的配置。目前仅支持SFT指令监督微调训练阶段。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.912） > 训练benchmark工具
GP Vnt1裸金属服务器用PyTorch报错CUDA initialization:CUDA unknown error - AI开发平台ModelArts

驱动程序及其相关的内核模块。在Linux系统上安装NVIDIA显卡驱动后，需要通过“nvidia-modprobe”命令来加载相应的内核模块，以便让显卡驱动正常工作。通常情况下，在安装NVIDIA驱动时，会自动执行“nvidia-modprobe”命令，将必要的内核模块加载到系

 帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Server
工具介绍及准备工作 - AI开发平台ModelArts

本章节主要介绍针对LLaMAFactory开发的测试工具benchmark，支持训练、性能对比、下游任务评测、loss和下游任务对比能力。对比结果以excel文件呈现。方便用户验证发布模型的质量。所有配置都通过yaml文件设置，用户查看默认yaml文件即可知道最优性能的配置。目前仅支持SFT指令监督微调训练阶段。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.910） > 训练benchmark工具
多模态模型推理性能测试 - AI开发平台ModelArts

静态性能测试：评估在固定输入、固定输出和固定并发下，模型的吞吐与首token延迟。该方式实现简单，能比较清楚的看出模型的性能和输入输出长度、以及并发的关系。性能benchmark验证使用到的脚本存放在代码包AscendCloud-LLM-xxx.zip的llm_tools/llm_evaluation目录下。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.909） > 推理性能测试

总条数： 510

上一页
1
2
3
4
5
...
26
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

日志提示“cuda runtime error (10) : invalid device ordinal at xxx” - AI开发平台ModelArts

如何切分ModelArts数据集？ - AI开发平台ModelArts

切换Lite Server服务器操作系统 - AI开发平台ModelArts

在ModelArts中如何将图片划分到验证集或者训练集？ - AI开发平台ModelArts

在AOM控制台查看ModelArts所有监控指标 - AI开发平台ModelArts

创建训练作业 - AI开发平台ModelArts

从0-1制作自定义镜像并创建模型 - AI开发平台ModelArts

在ECS中通过Dockerfile从0制作自定义镜像用于推理 - AI开发平台ModelArts

训练作业运行失败，出现NCCL报错 - AI开发平台ModelArts

订阅算法物体检测YOLOv3 - AI开发平台ModelArts

套餐包 - AI开发平台ModelArts

测试用户权限 - AI开发平台ModelArts

Step4 测试用户权限 - AI开发平台ModelArts

使用ModelArts PyCharm插件调试训练ResNet50图像分类模型 - AI开发平台ModelArts

使用SDK调测多机分布式训练作业 - AI开发平台ModelArts

工具介绍及准备工作 - AI开发平台ModelArts

工具介绍及准备工作 - AI开发平台ModelArts

GP Vnt1裸金属服务器用PyTorch报错CUDA initialization:CUDA unknown error - AI开发平台ModelArts

工具介绍及准备工作 - AI开发平台ModelArts

多模态模型推理性能测试 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线