搜索_华为云

自动学习训练作业失败 - AI开发平台ModelArts

再启动训练作业。当预处理后的数据不满足训练要求时，也会导致训练作业运行失败。对于数据集中列的过滤策略如下所示：如果某一列空缺的比例大于系统设定的阈值（0.9），此列数据在训练时将被剔除。如果某一列只有一种取值（即每一行的数据都是一样的），此列数据在训练时将被剔除。对于非纯

 帮助中心 > AI开发平台ModelArts > 故障排除 > 自动学习 > 模型训练
PyTorch1.0引擎提示“RuntimeError: std:exception” - AI开发平台ModelArts

按照issues中的说明，应该是环境中的库冲突了，因此在启动脚本最开始之前，添加如下代码。 import os os.system("rm /home/work/anaconda3/lib/libmkldnn.so") os.system("rm /home/work/anaconda3/lib/libmkldnn

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 云上迁移适配故障
创建ModelArts数据校验任务 - AI开发平台ModelArts

在“数据处理”页面，单击“创建”进入“创建数据处理”页面。在创建数据处理页面，填写相关算法参数。填写基本信息。基本信息包括“名称”、“版本”和“描述”。其中“版本”信息由系统自动生成，按“V0001”、“V0002”规则命名，用户无法修改。您可以根据实际情况填写“名称”和“描述”信息。图1 创建数据处理基本信息

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 数据准备与处理 > 处理ModelArts数据集中的数据
推理精度测试 - AI开发平台ModelArts

保存回答了问题的选项，但是回答结果错误 │ ├── answer_result_unknow.xlsx # 保存未推理出结果的问题，例如超时、系统错误 │ ├── system_error.xlsx # 保存推理结果，但是可能答非所问，无法判断是否正确，需要人工判断进行纠偏。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.905）
查看在线服务详情 - AI开发平台ModelArts

服务流量限制服务流量限制是指每秒内一个服务能够被访问的次数上限。运行日志输出默认关闭，在线服务的运行日志仅存放在ModelArts日志系统。启用运行日志输出后，在线服务的运行日志会输出存放到云日志服务LTS。LTS自动创建日志组和日志流，默认缓存7天内的运行日志。如需了解L

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard部署模型并推理预测 > 管理同步在线服务
moondream2基于DevServer适配PyTorch NPU推理指导 - AI开发平台ModelArts

参数说明： -v ${work_dir}:${container_work_dir}：代表需要在容器中挂载宿主机的目录。宿主机和容器使用不同的文件系统。work_dir为宿主机中工作目录，目录下存放着训练所需代码、数据等文件。container_work_dir为要挂载到的容器中的目录。为方便两个地址可以相同。

帮助中心 > AI开发平台ModelArts > 最佳实践 > AIGC模型训练推理
在推理生产环境中部署推理服务 - AI开发平台ModelArts

模型来源选择“从对象存储服务（OBS）中选择”，元模型选择转换后模型的存储路径，AI引擎选择“Custom”，引擎包选择准备镜像中上传的推理镜像。系统运行架构选择“ARM”。图3 设置AI应用单击“立即创建”开始AI应用创建，待应用状态显示“正常”即完成AI应用创建。首次创建AI应

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.908）
在ModelArts Standard上运行GPU训练作业的场景介绍 - AI开发平台ModelArts

针对不同的数据量和算法情况，推荐以下训练方案：单机单卡：小数据量（1G训练数据）、低算力场景（1卡Vnt1），存储方案推荐使用“OBS的并行文件系统（存放数据和代码）”。单机多卡：中等数据量（50G左右训练数据）、中等算力场景（8卡Vnt1），存储方案推荐使用“SFS（存放数据和代码）”。

帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard模型训练 > 基于ModelArts Standard运行GPU训练作业
查询工作空间详情 - AI开发平台ModelArts

线和下划线。同时'default'为系统预留的默认工作空间名称，用户无法自己创建名为'default'的工作空间。 description String 工作空间描述，默认为空。长度限制为0-256字符。 id String 工作空间ID，系统生成的32位UUID，不带橫线。 status

帮助中心 > AI开发平台ModelArts > API参考 > 工作空间管理
日志提示“no socket interface found” - AI开发平台ModelArts

处理方法针对原因1，需要在代码中补充如下环境变量。 import os os.environ["NCCL_IB_TC"] = "128" os.environ["NCCL_IB_GID_INDEX"] = "3" os.environ["NCCL_IB_TIMEOUT"] = "22"

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 业务代码问题
查询运行中的Notebook可用时长 - AI开发平台ModelArts

实例创建的时间，UTC毫秒。 duration Long 实例运行时长，以创建时间为起点计算，即“创建时间+duration > 当前时刻”时，系统会自动停止实例。 enable Boolean 是否启用自动停止功能。 type String 自动停止类别。 timing：自动停止。 idle：空闲停止。

帮助中心 > AI开发平台ModelArts > API参考 > 开发环境管理
创建网络资源 - AI开发平台ModelArts

网络资源的标签信息。表4 NetworkMetadataLabels 参数是否必选参数类型描述 os.modelarts/name 是 String 用户指定的network名称。 os.modelarts/workspace.id 否 String 工作空间ID。获取方法请参见查

 帮助中心 > AI开发平台ModelArts > API参考 > 资源管理
模型配置文件编写说明 - AI开发平台ModelArts

r_location为必填参数。Image镜像制作规范可参见创建模型的自定义镜像规范。 runtime 否 String 模型运行时环境，系统默认使用python2.7。runtime可选值与model_type相关，当model_type设置为Image时，不需要设置runti

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard部署模型并推理预测 > 创建模型规范参考
场景介绍 - AI开发平台ModelArts
场景介绍 - AI开发平台ModelArts

Turbo的数据存储方案，不适用于仅OBS存储方案。通过OBS对象存储服务（Object Storage Service）与SFS Turbo文件系统联动，可以实现灵活数据管理、高性能读取等。约束限制如果要使用自动重启功能，资源规格必须选择八卡规格。适配的CANN版本是cann_8

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配PyTorch NPU训练指导（6.3.909）
训练作业日志中提示“No such file or directory” - AI开发平台ModelArts

e_path。 import os current_path = os.path.dirname(os.path.realpath(__file__)) # BootfileDirectory, 启动文件所在的目录 project_root = os.path.dirname(current_path)

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 云上迁移适配故障
GPU A系列裸金属服务器RoCE带宽不足如何解决？ - AI开发平台ModelArts

(Peer-to-Peer)的NVIDIA GPU直接进行内存访问(DMA)。这意味着数据可以直接在多个GPU之间传输，而无需经过CPU或系统内存，这可以显著降低延迟并提高带宽。所以既然nccl-tests能正常测试，但是达不到预期，可能是nv_peer_mem异常。处理方法

 帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Server
场景介绍 - AI开发平台ModelArts
场景介绍 - AI开发平台ModelArts

Turbo的数据存储方案，不适用于仅使用OBS的存储方案。通过OBS对象存储服务（Object Storage Service）与SFS Turbo文件系统联动，可以实现数据灵活管理、高性能读取数据等。通过OBS上传训练所需的模型文件、训练数据等，再将OBS中的数据文件导入到SFS Turbo，然后在训练作业中挂载SFS

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配PyTorch NPU训练指导（6.3.908）
Open-Clip基于DevServer适配PyTorch NPU训练指导 - AI开发平台ModelArts

将下面的代码复制进去后保存。 import os import torch from PIL import Image import open_clip if 'DEVICE_ID' in os.environ: print("DEVICE_ID:", os.environ['DEVICE_ID'])

帮助中心 > AI开发平台ModelArts > 最佳实践 > AIGC模型训练推理
查询网络资源列表 - AI开发平台ModelArts

object 网络资源的注释信息。表7 NetworkMetadataLabels 参数参数类型描述 os.modelarts/name String 用户指定的network名称。 os.modelarts/workspace.id String 工作空间ID。获取方法请参见查询工作

 帮助中心 > AI开发平台ModelArts > API参考 > 资源管理
删除网络资源 - AI开发平台ModelArts

object 网络资源的注释信息。表4 NetworkMetadataLabels 参数参数类型描述 os.modelarts/name String 用户指定的network名称。 os.modelarts/workspace.id String 工作空间ID。获取方法请参见查询工作

 帮助中心 > AI开发平台ModelArts > API参考 > 资源管理

总条数： 639

上一页
1
...
20
21
22
...
32
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

自动学习训练作业失败 - AI开发平台ModelArts

PyTorch1.0引擎提示“RuntimeError: std:exception” - AI开发平台ModelArts

创建ModelArts数据校验任务 - AI开发平台ModelArts

推理精度测试 - AI开发平台ModelArts

查看在线服务详情 - AI开发平台ModelArts

moondream2基于DevServer适配PyTorch NPU推理指导 - AI开发平台ModelArts

在推理生产环境中部署推理服务 - AI开发平台ModelArts

在ModelArts Standard上运行GPU训练作业的场景介绍 - AI开发平台ModelArts

查询工作空间详情 - AI开发平台ModelArts

日志提示“no socket interface found” - AI开发平台ModelArts

查询运行中的Notebook可用时长 - AI开发平台ModelArts

创建网络资源 - AI开发平台ModelArts

模型配置文件编写说明 - AI开发平台ModelArts

场景介绍 - AI开发平台ModelArts

训练作业日志中提示“No such file or directory” - AI开发平台ModelArts

GPU A系列裸金属服务器RoCE带宽不足如何解决？ - AI开发平台ModelArts

场景介绍 - AI开发平台ModelArts

Open-Clip基于DevServer适配PyTorch NPU训练指导 - AI开发平台ModelArts

查询网络资源列表 - AI开发平台ModelArts

删除网络资源 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线