搜索_华为云

Yaml配置文件参数配置说明 - AI开发平台ModelArts

Yaml配置文件参数配置说明本小节主要详细描述demo_yaml配置文件、配置参数说明，用户可根据实际自行选择其需要的参数。表1 模型训练脚本参数参数示例值参数说明 model_name_or_path /home/ma-user/ws/tokenizers/Qwen2-72B

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.909） > 训练脚本说明
训练业务迁移到昇腾设备场景介绍 - AI开发平台ModelArts

运行指导，其余场景再考虑使用本指导自行迁移和调优。迁移流程模型迁移主要指将开源社区中实现过的模型或客户自研模型迁移到昇腾AI处理器上，需要保证模型已经在CPU/GPU上运行成功。迁移到昇腾AI处理器的主要流程如下图所示。图1 迁移流程父主题： GPU训练业务迁移至昇腾的通用指导

 帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > GPU训练业务迁移至昇腾的通用指导
使用自动分组智能标注作业 - AI开发平台ModelArts

登录ModelArts管理控制台，在左侧菜单栏中选择“数据准备>数据标注”，进入“数据标注”管理页面。在标注作业列表中，选择“物体检测”或“图像分类”类型的标注作业，单击标注作业名称进入“标注作业详情页”。在数据集详情页的“全部”页签中，单击“自动分组 > 启动任务”。只能在“全部”页签下启动自动分组任务或查看任务历史。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 数据准备与处理 > 标注ModelArts数据集中的数据 > 通过智能标注方式标注数据
读取文件报错，如何正确读取文件 - AI开发平台ModelArts

读取文件报错，如何正确读取文件问题现象创建训练作业如何读取“json”和“npy”文件。训练作业如何使用cv2库读取文件。如何在MXNet环境下使用torch包。训练作业读取文件，出现如下报错： NotFoundError (see above for traceback):

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > OBS操作相关故障
日志提示“Unexpected keyword argument passed to optimizer” - AI开发平台ModelArts

eleases/tag/2.3.0。处理方法将训练代码里的参数名称“lr”改成“learning_rate”。建议与总结在创建训练作业前，推荐您先使用ModelArts开发环境调试训练代码，避免代码迁移过程中的错误。直接使用线上notebook环境调试请参考使用JupyterLab开发模型。

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 业务代码问题
Cann软件与Ascend驱动版本不匹配 - AI开发平台ModelArts

Cann软件与Ascend驱动版本不匹配问题现象训练失败并提示“Cann软件与Ascend驱动版本不匹配”。原因分析当昇腾规格的训练作业在ModelArts训练平台上运行时，会自动对Cann软件与Ascend驱动的版本匹配情况进行检查。如果平台发现版本不匹配，则会立即训练失败，避免后续无意义的运行时长。

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > Ascend相关问题
yaml配置文件参数配置说明 - AI开发平台ModelArts

yaml配置文件参数配置说明本小节主要详细描述demo_yaml样例配置文件、配置参数说明，用户可根据实际自行选择其需要的参数。表1 模型训练脚本参数参数示例值参数说明 model_name_or_path /home/ma-user/ws/tokenizers/Qwen2-72B

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.907） > 训练脚本说明
保存模型时出现Unable to connect to endpoint错误 - AI开发平台ModelArts

保存模型时出现Unable to connect to endpoint错误问题现象训练作业保存模型时日志报错，具体信息如下： InternalError (see above for traceback): : Unable to connect to endpoint 原因分析

 帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > OBS操作相关故障
日志提示“AttributeError: 'NoneType' object has no attribute 'dtype'” - AI开发平台ModelArts

日志提示“AttributeError: 'NoneType' object has no attribute 'dtype'” 问题现象代码在Notebook的keras镜像中可以正常运行，在训练模块使用tensorflow.keras训练报错时，出现如下报错：AttributeError:

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 业务代码问题
服务管理 - AI开发平台ModelArts
服务管理 - AI开发平台ModelArts

服务管理通过patch操作对服务进行更新查询服务监控信息查询服务列表部署服务查询支持的服务部署规格查询服务详情更新服务配置删除服务更新模型服务的单个属性查询专属资源池列表查询服务事件日志启动停止边缘节点服务实例查询服务更新日志添加资源标签删除资源标签

 帮助中心 > AI开发平台ModelArts > API参考
Lite Cluster资源管理介绍 - AI开发平台ModelArts

ModelArts面向此类客户提供了自助升级专属资源池GPU/Ascend驱动的能力。监控Lite Cluster资源：ModelArts支持使用AOM和Prometheus对资源进行监控，方便您了解当前的资源使用情况。释放Lite Cluster资源：针对不再使用的Lite

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster资源管理
创建Workflow数据集节点 - AI开发平台ModelArts

创建Workflow数据集节点功能介绍通过对ModelArts数据集能力进行封装，实现新版数据集的创建功能。主要用于通过创建数据集对已有数据（已标注/未标注）进行统一管理的场景，后续常见数据集导入节点或者数据集标注节点。属性总览您可以使用CreateDatasetStep

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Workflow实现低代码AI开发 > 开发Workflow命令参考 > 创建Workflow节点
Lite Server资源管理 - AI开发平台ModelArts

Server服务器同步Lite Server服务器状态切换Lite Server服务器操作系统制作Lite Server服务器操作系统监控Lite Server资源 NPU日志收集上传 GPU日志收集上传释放Lite Server资源

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Server）
Lite Cluster资源管理 - AI开发平台ModelArts

Cluster资源池升级Lite Cluster资源池驱动升级Lite Cluster资源池单个节点驱动管理Lite Cluster资源池的游离节点监控Lite Cluster资源释放Lite Cluster资源

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster）
分布式Tensorflow无法使用“tf.variable” - AI开发平台ModelArts

分布式Tensorflow无法使用“tf.variable” 问题现象多机或多卡使用“tf.variable”会造成以下错误： WARNING:tensorflow:Gradient is None for variable:v0/tower_0/UNET_v7/sub_pixel/Variable:0

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 业务代码问题
MXNet创建kvstore时程序被阻塞，无报错 - AI开发平台ModelArts

MXNet创建kvstore时程序被阻塞，无报错问题现象使用kv_store = mxnet.kv.create('dist_async')方式创建“kvstore”时程序被阻塞。如，执行如下代码，如果无法输出“end”，表明程序阻塞。 print('start') kv_store

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 业务代码问题
下载或读取文件报错，提示超时、无剩余空间 - AI开发平台ModelArts

图1 错误日志原因分析出现该问题的可能原因如下。磁盘空间不足。分布式作业时，有些节点的docker base size配置未生效，容器内“/”根目录空间未达到50GB，只有默认的10GB，导致作业训练失败。实际存储空间足够，却依旧报错“No Space left on device”。

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 硬盘限制故障
使用预置算法训练时，训练失败，报“bndbox”错误 - AI开发平台ModelArts

使用预置算法训练时，训练失败，报“bndbox”错误问题现象使用预置算法创建训练作业，训练失败，日志中出现如下报错。 KeyError: 'bndbox' 原因分析用于训练的数据集中，使用了“非矩形框”标注。而预置使用算法不支持“非矩形框”标注的数据集。处理方法此问题有两种解决方法：

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 业务代码问题
日志提示“label - AI开发平台ModelArts

日志提示“label_map.pbtxt cannot be found” 问题现象使用目标检测算法训练时，训练作业日志运行出现如下报错：ERROR:root:label_map.pbtxt cannot be found. It will take a long time to

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 预置算法运行故障
日志提示“errorMessage:The specified key does not exist” - AI开发平台ModelArts

处理方法检查OBS路径及内容格式是否正常。必现的问题，使用本地Pycharm远程连接Notebook调试。建议与总结在创建训练作业前，推荐您先使用ModelArts开发环境调试训练代码，避免代码迁移过程中的错误。直接使用线上notebook环境调试请参考使用JupyterLab开发模型。

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > OBS操作相关故障

总条数： 939

上一页
1
...
15
16
17
...
47
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

Yaml配置文件参数配置说明 - AI开发平台ModelArts

训练业务迁移到昇腾设备场景介绍 - AI开发平台ModelArts

使用自动分组智能标注作业 - AI开发平台ModelArts

读取文件报错，如何正确读取文件 - AI开发平台ModelArts

日志提示“Unexpected keyword argument passed to optimizer” - AI开发平台ModelArts

Cann软件与Ascend驱动版本不匹配 - AI开发平台ModelArts

yaml配置文件参数配置说明 - AI开发平台ModelArts

保存模型时出现Unable to connect to endpoint错误 - AI开发平台ModelArts

日志提示“AttributeError: 'NoneType' object has no attribute 'dtype'” - AI开发平台ModelArts

服务管理 - AI开发平台ModelArts

Lite Cluster资源管理介绍 - AI开发平台ModelArts

创建Workflow数据集节点 - AI开发平台ModelArts

Lite Server资源管理 - AI开发平台ModelArts

Lite Cluster资源管理 - AI开发平台ModelArts

分布式Tensorflow无法使用“tf.variable” - AI开发平台ModelArts

MXNet创建kvstore时程序被阻塞，无报错 - AI开发平台ModelArts

下载或读取文件报错，提示超时、无剩余空间 - AI开发平台ModelArts

使用预置算法训练时，训练失败，报“bndbox”错误 - AI开发平台ModelArts

日志提示“label - AI开发平台ModelArts

日志提示“errorMessage:The specified key does not exist” - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线