搜索_华为云

在ModelArts Standard运行GPU训练作业的准备工作 - AI开发平台ModelArts

对象存储服务提供按需计费和包年包月两种计费模式，用户可以根据实际需求购买OBS服务。 OBS服务支持以下两种存储方式，单机单卡场景使用文件系统，多机多卡场景使用普通OBS桶。创建普通OBS桶创建并行文件系统虚拟私有云VPC 虚拟私有云可以为您构建隔离的、用户自主配置和管理的虚拟网络环境。通过打通专属资源池

 帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard模型训练 > 基于ModelArts Standard运行GPU训练作业
PyTorch1.0引擎提示“RuntimeError: std:exception” - AI开发平台ModelArts

按照issues中的说明，应该是环境中的库冲突了，因此在启动脚本最开始之前，添加如下代码。 import os os.system("rm /home/work/anaconda3/lib/libmkldnn.so") os.system("rm /home/work/anaconda3/lib/libmkldnn

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 云上迁移适配故障
（可选）本地服务器安装ModelArts SDK - AI开发平台ModelArts

步骤一：下载ModelArts SDK 步骤二：配置运行环境步骤三：安装ModelArts SDK ModelArts SDK支持安装在Windows和Linux操作系统中。如果在Windows上安装ModelArts SDK时出现报错，可参见FAQ：安装ModelArts SDK报错处理报错。步骤一：下载ModelArts

帮助中心 > AI开发平台ModelArts > SDK参考
更新服务配置 - AI开发平台ModelArts

挂载在系统目录下，如“/”、“/var/run”等，会导致容器异常。建议挂载在空目录下，若目录不为空，请确保目录下无影响容器启动的文件，否则文件会被替换，导致容器启动异常，工作负载创建失败。 storage_type 否 String 挂载类型sfs_turbo极速文件系统挂载。

帮助中心 > AI开发平台ModelArts > API参考 > 服务管理
离线训练安装包准备说明 - AI开发平台ModelArts

若用户的机器或资源池无法连通网络，并无法git clone下载代码、安装python依赖包的情况下，用户则需要找到已联网的机器（本章节以Linux系统机器为例）提前下载资源，以实现离线安装。用户可遵循以下步骤：步骤一：资源下载 Python依赖包下载：进入 scripts/install

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配ModelLink PyTorch NPU训练指导（6.3.911） > 训练脚本说明参考
Yolov8基于Lite Server适配MindSpore Lite推理指导（6.3.909） - AI开发平台ModelArts

Value [linux] for parameter [--host_env_os] is invalid. Reason: os not supported, support setting are the OS types of opp package。建议在步骤三：启动容器镜像中通过docker

帮助中心 > AI开发平台ModelArts > 最佳实践 > 内容审核模型训练推理
GP Vnt1裸金属服务器用PyTorch报错CUDA initialization:CUDA unknown error - AI开发平台ModelArts

_cuda_getDeviceCount() > 0 原因分析 nvidia-modprobe是一个Linux工具，用于在系统中加载NVIDIA驱动程序及其相关的内核模块。在Linux系统上安装NVIDIA显卡驱动后，需要通过“nvidia-modprobe”命令来加载相应的内核模块，以便让显卡驱动正常工作。

帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Server
日志提示“no socket interface found” - AI开发平台ModelArts

处理方法针对原因1，需要在代码中补充如下环境变量。 import os os.environ["NCCL_IB_TC"] = "128" os.environ["NCCL_IB_GID_INDEX"] = "3" os.environ["NCCL_IB_TIMEOUT"] = "22"

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 业务代码问题
部署模型为在线服务 - AI开发平台ModelArts

Turbo：文件系统名称：选择对应的SFS Turbo极速文件。不支持选择跨区域（Region）的极速文件系统。挂载路径：指定容器内部的挂载路径，如“/sfs-turbo-mount/”。请选择全新目录，选择存量目录会覆盖存量文件。说明：相同的文件系统只能挂载一次，且只

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard部署模型并推理预测 > 将模型部署为实时推理作业
上传数据和算法至OBS（首次使用时需要） - AI开发平台ModelArts

上传数据和算法至OBS（首次使用时需要）前提条件已经在OBS上创建好并行文件系统，请参见创建并行文件系统。已经在obsutil安装和配置，请参见obsutils安装和配置。准备数据单击下载动物数据集至本地，并解压。通过obsutil将数据集上传至OBS桶中。 ./obsutil

帮助中心 > AI开发平台ModelArts > 最佳实践 > 历史待下线案例 > 专属资源池训练 > 调试与训练 > 单机单卡
创建Standard专属资源池 - AI开发平台ModelArts

开启“节点高级配置”开关后，支持设置实例的操作系统。存储配置部分规格支持“存储配置”开关，该参数默认关闭。系统盘打开“存储配置”开关后，可以看到每个实例默认自带的系统盘的磁盘类型、大小或数量。部分规格没有携带系统盘，在创建专属资源池时支持设置系统盘的磁盘类型和大小。容器盘打开

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > ModelArts Standard资源管理
训练作业的自定义镜像制作流程 - AI开发平台ModelArts

从0制作自定义镜像用于创建训练作业（MindSpore+Ascend）训练框架的自定义镜像约束推荐自定义镜像使用ubuntu-18.04的操作系统，避免出现版本不兼容的问题。自定义镜像的大小推荐15GB以内，最大不要超过资源池的容器引擎空间大小的一半。镜像过大会直接影响训练作业的启动时间。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 制作自定义镜像用于ModelArts Standard > 制作自定义镜像用于训练模型
在JupyterLab中使用TensorBoard可视化作业 - AI开发平台ModelArts

保该OBS路径与Notebook实例在同一区域。并通过动态挂载功能将该OBS路径挂载至Notebook中，具体请参见动态挂载OBS并行文件系统。图1 Notebook中的待可视化的数据建议将需要可视化的数据上传到单独目录下，如果使用OBS挂载功能，建议只挂载可视化数据所在层级

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Notebook进行AI开发调试 > 通过JupyterLab在线使用Notebook实例进行AI开发
开发用于预置框架训练的代码 - AI开发平台ModelArts

参见预置框架启动文件的启动流程说明。训练输入路径参数训练数据需上传至OBS桶或者存储至数据集中。在训练代码中，用户需解析输入路径参数。系统后台会自动下载输入参数路径中的训练数据至训练容器的本地目录。请保证您设置的桶路径有读取权限。在训练作业启动后，ModelArts会挂载硬盘

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 准备模型训练代码
确认智能标注作业的数据难例 - AI开发平台ModelArts

据进一步确认标注，然后将其加入训练数据集中，使用此数据集训练模型，可得到精度更高的模型。首先，针对智能标注和采集筛选任务，难例的发现操作是系统自动执行的，无需人工介入，仅需针对标注后的数据进行确认和修改即可，提升数据管理和标注效率。其次，您可以基于难例的情况，补充类似数据，提升数

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 数据准备与处理 > 标注ModelArts数据集中的数据 > 通过智能标注方式标注数据
执行训练任务【新】 - AI开发平台ModelArts

1表格中的配置进行填写。图3 超参步骤三开启训练故障自动重启功能创建训练作业时，可开启自动重启功能。当环境问题导致训练作业异常时，系统将自动修复异常或隔离节点，并重启训练作业，提高训练成功率。为了避免丢失训练进度、浪费算力。此功能已适配断点续训练。图4 开启故障重启断

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配ModelLink PyTorch NPU训练指导（6.5.901） > 执行训练任务
Lite Cluster高危操作一览表 - AI开发平台ModelArts

下表可帮助您定位异常出现的原因，风险操作包括但不限于以下内容。高危操作风险等级说明：高：对于可能直接导致业务失败、数据丢失、系统不能维护、系统资源耗尽的高危操作。中：对于可能导致安全风险及可靠性降低的高危操作。低：高、中风险等级外的其他高危操作。表1 操作及其对应风险

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster使用前必读
创建Workflow训练作业节点 - AI开发平台ModelArts

NFS文件系统对象，在一个Volume对象中，nfs、pacific、pfs同时只能配置一个否 NFS pacific pacific文件系统对象，在一个Volume对象中，nfs、pacific、pfs同时只能配置一个否 Placeholder pfs OBS并行文件系统对象，

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Workflow实现低代码AI开发 > 开发Workflow命令参考 > 创建Workflow节点
执行训练任务【新】 - AI开发平台ModelArts

1表格中的配置进行填写。图3 超参步骤三开启训练故障自动重启功能创建训练作业时，可开启自动重启功能。当环境问题导致训练作业异常时，系统将自动修复异常或隔离节点，并重启训练作业，提高训练成功率。为了避免丢失训练进度、浪费算力。此功能已适配断点续训练。图4 开启故障重启断

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配ModelLink PyTorch NPU训练指导（6.3.912） > 执行训练任务
创建训练作业时出现“实例挂卷失败”的事件 - AI开发平台ModelArts

port是否正常打开，SFS Turbo所需要入方向的端口号为111、445、2049、2051、2052、20048，具体请参见创建文件系统的“安全组”参数。Cloud Shell功能的操作指导请参见使用CloudShell登录训练容器。是，则修改安全组的配置，具体操作请参见修改安全组规则。

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 专属资源池创建训练作业

总条数： 658

上一页
1
...
6
7
8
...
33
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

在ModelArts Standard运行GPU训练作业的准备工作 - AI开发平台ModelArts

PyTorch1.0引擎提示“RuntimeError: std:exception” - AI开发平台ModelArts

（可选）本地服务器安装ModelArts SDK - AI开发平台ModelArts

更新服务配置 - AI开发平台ModelArts

离线训练安装包准备说明 - AI开发平台ModelArts

Yolov8基于Lite Server适配MindSpore Lite推理指导（6.3.909） - AI开发平台ModelArts

GP Vnt1裸金属服务器用PyTorch报错CUDA initialization:CUDA unknown error - AI开发平台ModelArts

日志提示“no socket interface found” - AI开发平台ModelArts

部署模型为在线服务 - AI开发平台ModelArts

上传数据和算法至OBS（首次使用时需要） - AI开发平台ModelArts

创建Standard专属资源池 - AI开发平台ModelArts

训练作业的自定义镜像制作流程 - AI开发平台ModelArts

在JupyterLab中使用TensorBoard可视化作业 - AI开发平台ModelArts

开发用于预置框架训练的代码 - AI开发平台ModelArts

确认智能标注作业的数据难例 - AI开发平台ModelArts

执行训练任务【新】 - AI开发平台ModelArts

Lite Cluster高危操作一览表 - AI开发平台ModelArts

创建Workflow训练作业节点 - AI开发平台ModelArts

执行训练任务【新】 - AI开发平台ModelArts

创建训练作业时出现“实例挂卷失败”的事件 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线