搜索_华为云

Lite Cluster使用前必读 - AI开发平台ModelArts

Lite Cluster使用前必读 Lite Cluster使用流程 Lite Cluster高危操作一览表不同机型的对应的软件配套版本

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster）
重置节点后无法正常使用？ - AI开发平台ModelArts

删除maos-node-agent的pod（重启pod）。 CCE页面上删除节点上的污点A200008。 ModelArts上重置节点。 CCE页面上配置中心修改默认调度器为volcano。该方案的缺点：后续对ModelArts的节点做相关操作如重置、升级驱动等可能会出现节点异常无法启动的情况。父主题：

帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Cluster
OBS复制过程中提示“BrokenPipeError: Broken pipe” - AI开发平台ModelArts

[Errno xx] Broken pipe”。原因分析出现该问题的可能原因如下：在大规模分布式作业上，每个节点都在复制同一个桶的文件，导致OBS桶限流。 OBS Client连接数过多，进程/线程之间的轮询，导致一个OBS Client与服务端连接30S内无响应，超过超时时间，服务端断开了连接。

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > OBS操作相关故障
集成在线服务API至生产环境中应用 - AI开发平台ModelArts

集成在线服务API至生产环境中应用针对已完成调测的API，可以将在线服务API集成至生产环境中应用。前提条件确保在线服务一直处于“运行中”状态，否则会导致生产环境应用不可用。集成方式 ModelArts在线服务提供的API是一个标准的Restful API，可使用HTTPS协议

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard部署模型并推理预测 > 管理同步在线服务
推理场景介绍 - AI开发平台ModelArts

6。适配的CANN版本是cann_8.0.rc3。资源规格要求本文档中的模型运行环境是ModelArts Lite的Lite k8s Cluster。推荐使用“西南-贵阳一”Region上的资源和Ascend Snt9B。支持的模型列表和权重文件本方案支持vLLM的v0.6

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.910）
管理ModelArts模型版本 - AI开发平台ModelArts

数说明请参见创建模型。单击“立即创建”，完成新版本的创建操作。删除版本在“模型管理”页面，单击模型的“版本数量”，在展开的版本列表中，单击“操作”列的“删除”，即可删除对应的版本。如果模型的版本已经部署服务，需先删除关联的服务后再执行删除操作。版本删除后不可恢复，请谨慎操作。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard部署模型并推理预测 > 管理ModelArts模型
推理场景介绍 - AI开发平台ModelArts

6。适配的CANN版本是cann_8.0.rc3。资源规格要求本文档中的模型运行环境是ModelArts Lite的Lite k8s Cluster。推荐使用“西南-贵阳一”Region上的资源和Ascend Snt9B。支持的模型列表和权重文件本方案支持vLLM的v0.6

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.909）
推理场景介绍 - AI开发平台ModelArts

6。适配的CANN版本是cann_8.0.rc3。资源规格要求本文档中的模型运行环境是ModelArts Lite的Lite k8s Cluster。推荐使用“西南-贵阳一”Region上的资源和Ascend Snt9B。支持的模型列表和权重文件本方案支持vLLM的v0.6

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.911）
msprobe梯度监控 - AI开发平台ModelArts

msprobe梯度监控梯度监控工具提供了将模型梯度数据导出的能力。使用梯度监控工具，可以实现对训练过程模型每一层梯度信息进行监控，目前支持两种能力：将模型权重的梯度数据导出。这种功能可以将模型权重的梯度值以统计量的形式采集出来，用以分析问题，例如检测确定性问题，使用训练状态监

 帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > msprobe工具使用指导
日志提示“RuntimeError: Cannot re-initialize CUDA in forked subprocess” - AI开发平台ModelArts

subprocess” 问题现象在使用pytorch启动多进程的时候，出现如下报错： RuntimeError: Cannot re-initialize CUDA in forked subprocess 原因分析出现该问题的可能原因如下： multiprocessing启动方式有误。

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > GPU相关问题
使用预置算法训练时，训练失败，报“bndbox”错误 - AI开发平台ModelArts

KeyError: 'bndbox' 原因分析用于训练的数据集中，使用了“非矩形框”标注。而预置使用算法不支持“非矩形框”标注的数据集。处理方法此问题有两种解决方法：方法1：使用常用框架自行编码开发模型，支持“多边形”标注的数据集。方法2：修改数据集，使用矩形标注。然后再启动训练作业。

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 业务代码问题
Yaml配置文件参数配置说明 - AI开发平台ModelArts

RO内存优化等高级特性，以提高训练效率和性能 stage sft 表示当前的训练阶段。可选择值：sft、rm、ppo、dpo。 sft代表指令监督微调； rm代表奖励模型训练； ppo代表PPO训练； dpo代表DPO训练。 finetuning_type full 用于指定微调策略类型，可选择值full、lora。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.911） > 训练脚本说明
训练作业训练失败报错：TypeError: unhashable type: ‘list’ - AI开发平台ModelArts

or: unhashable type: ‘list’。原因分析可能由于使用了多标签分类导致（即一个图片用了1个以上的标签）。处理方法使用单标签分类的数据集进行训练。父主题：数据集问题导致训练失败

 帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 训练作业运行失败
资源池推理服务一直初始化中如何解决 - AI开发平台ModelArts

初始化。原因分析专属池网段和推理微服务dispatcher网段冲突，导致专属池上的VPCEP终端节点无法创建，该region无法使用此网段创建包含推理服务的资源池。处理方法选择其他网段的ModelArts网络重建资源池即可解决网段冲突问题。父主题：资源池

 帮助中心 > AI开发平台ModelArts > 故障排除 > 资源池
在ModelArts上训练模型如何配置输入输出数据？ - AI开发平台ModelArts

_url”代替算法中数据来源和数据输出所需的路径。在使用预置框架创建算法时，根据1中的代码参数设置定义的输入输出参数。训练数据是算法开发中必不可少的输入。“输入”参数建议设置为“data_url”，表示数据输入来源，也支持用户根据1的算法代码自定义代码参数。模型训练结束后，

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard模型训练
配置SWR组织权限 - AI开发平台ModelArts

使IAM用户对组织内所有镜像享有读取/编辑/管理的权限。只有具备“管理”权限的账号和IAM用户才能添加授权。登录容器镜像服务控制台。在左侧菜单栏选择“组织管理”，单击组织名称。在“用户”页签下单击“添加授权”，在弹出的窗口中为IAM用户选择权限，然后单击“确定”。 SWR授权管理详情可参考授权管理。

帮助中心 > AI开发平台ModelArts > 最佳实践 > 历史待下线案例 > 专属资源池训练 > 基本配置 > 权限配置
上传文件至OBS - AI开发平台ModelArts

String 本地需要上传的文件路径。 dst_obs_dir 是 String 上传的目标OBS桶地址，必须以“obs://”作为前缀，上传的目标文件夹后缀必须以“/”结尾。表2 失败响应参数说明参数参数类型描述 error_code String 调用失败时的错误码。调用成功时无此字段。

帮助中心 > AI开发平台ModelArts > SDK参考 > OBS管理
Notebook Cache盘告警上报 - AI开发平台ModelArts

可创建一个主题。单击主题名称“操作”列的“更多 > 设置主题策略”。选择APM，即允许AOM的告警触发SMN服务。图5 设置主题策略单击主题名称“操作”列的“添加订阅”。订阅成功后，一旦满足告警条件，那么就会收到通知。选择合适的协议，如邮件，短信等，并填写终端，如邮件地址，手机号等。单击确认。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Notebook进行AI开发调试 > 管理Notebook实例
更新标注团队 - AI开发平台ModelArts

s/{workforce_id} 表1 路径参数参数是否必选参数类型描述 project_id 是 String 用户项目ID。获取方法请参见获取项目ID和名称。 workforce_id 是 String 标注团队ID。请求参数表2 请求Body参数参数是否必选

 帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 数据管理（旧版）
托管镜像到AI Gallery - AI开发平台ModelArts

创建镜像资产登录AI Gallery，单击右上角“我的Gallery”进入我的Gallery页面。单击左上方“创建资产”，选择“镜像”。在“创建镜像”弹窗中配置参数，单击“创建”。表1 创建镜像参数名称说明英文名称必填项，镜像的英文名称。如果没有填写“中文名称”，则资产发

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（AI Gallery） > AI Gallery（新版） > 发布和管理AI Gallery镜像

总条数： 2388

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

Lite Cluster使用前必读 - AI开发平台ModelArts

重置节点后无法正常使用？ - AI开发平台ModelArts

OBS复制过程中提示“BrokenPipeError: Broken pipe” - AI开发平台ModelArts

集成在线服务API至生产环境中应用 - AI开发平台ModelArts

推理场景介绍 - AI开发平台ModelArts

管理ModelArts模型版本 - AI开发平台ModelArts

推理场景介绍 - AI开发平台ModelArts

推理场景介绍 - AI开发平台ModelArts

msprobe梯度监控 - AI开发平台ModelArts

日志提示“RuntimeError: Cannot re-initialize CUDA in forked subprocess” - AI开发平台ModelArts

使用预置算法训练时，训练失败，报“bndbox”错误 - AI开发平台ModelArts

Yaml配置文件参数配置说明 - AI开发平台ModelArts

训练作业训练失败报错：TypeError: unhashable type: ‘list’ - AI开发平台ModelArts

资源池推理服务一直初始化中如何解决 - AI开发平台ModelArts

在ModelArts上训练模型如何配置输入输出数据？ - AI开发平台ModelArts

配置SWR组织权限 - AI开发平台ModelArts

上传文件至OBS - AI开发平台ModelArts

Notebook Cache盘告警上报 - AI开发平台ModelArts

更新标注团队 - AI开发平台ModelArts

托管镜像到AI Gallery - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线