搜索_华为云

预训练 - AI开发平台ModelArts
预训练 - AI开发平台ModelArts

Step4 开启训练故障自动重启功能创建训练作业时，可开启自动重启功能。当环境问题导致训练作业异常时，系统将自动修复异常或隔离节点，并重启训练作业，提高训练成功率。为了避免丢失训练进度、浪费算力。此功能已适配断点续训练。图2 开启故障重启断点续训练是通过checkpoi

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配PyTorch NPU训练指导（6.3.911）
SFT全参微调训练 - AI开发平台ModelArts

Step4 开启训练故障自动重启功能创建训练作业时，可开启自动重启功能。当环境问题导致训练作业异常时，系统将自动修复异常或隔离节点，并重启训练作业，提高训练成功率。为了避免丢失训练进度、浪费算力。此功能已适配断点续训练。图3 开启故障重启断点续训练是通过checkpoi

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配PyTorch NPU训练指导（6.3.911）
管理AI Gallery中的AI应用 - AI开发平台ModelArts

定”完成配置。删除环境变量：单击，确认永久删除环境变量，单击“确定”完成删除。重启AI应用，使环境变量的新增、修改、删除生效。当AI应用的状态为“运行中”时，则在“运行资源设置”处，单击“重启”。当AI应用的状态为非“待启动”时，则环境变量的变更会随应用启动自动生效。管理AI应用可见范围

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（AI Gallery） > AI Gallery（新版） > 发布和管理AI Gallery中的AI应用
在Notebook上安装配置Grafana - AI开发平台ModelArts

Standard的Notebook中安装配置Grafana。前提条件已创建CPU或GPU类型的Notebook实例，并处于运行中。打开Terminal。操作步骤在Terminal中依次执行以下命令，下载并安装Grafana。 mkdir -p /home/ma-user/work/grf cd

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > ModelArts Standard资源监控 > 使用Grafana查看AOM中的监控指标 > 安装配置Grafana
裸金属服务器Euler OS升级NetworkManager-config-server导致SSH链接故障解决方案 - AI开发平台ModelArts

nfig-server，并重启NetworkManager服务，重新尝试SSH连接，验证网络是否恢复。 # 卸载 NetworkManagre-config-server rpm -e NetworkManager-config-server # 重启 NetworkManager

帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Server
查询Notebook实例详情 - AI开发平台ModelArts

String 实例ID。 status String 任务某个步骤的状态。枚举值如下： WAITING：等待中 PROCESSING：处理中 FAILED：任务失败 COMPLETED：任务完成 step Integer 任务的步骤。枚举值如下: 1：准备存储 2：准备计算资源 3：配置网络

 帮助中心 > AI开发平台ModelArts > API参考 > 开发环境管理
为什么在ModelArts数据标注平台标注数据提示标注保存失败？ - AI开发平台ModelArts

解决方案 1. 切换为稳定的网络后重试。 2. 初始化网络配置，使用管理员权限启动CMD，输入netsh winsock reset指令，完成后重启电脑，再登录数据标注平台重试。父主题： Standard数据管理

 帮助中心 > AI开发平台ModelArts > 常见问题 > Standard数据管理
使用DCGM监控Lite Server资源 - AI开发平台ModelArts

ric-manager软件包。步骤一：安装Docker 使用Docker官方脚本安装最新版Docker： curl https://get.docker.com | sh sudo systemctl --now enable docker 步骤二：安装NVIDIA容器工具集设置仓库地址和GPG

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Server） > Lite Server资源管理 > 监控Lite Server资源
提示“上传的AK/SK不可用”，如何解决？ - AI开发平台ModelArts

是由于账号欠费或AK与SK不正确等原因。解决方案使用当前账号登录OBS管理控制台，确认当前账号是否能访问OBS。是，请执行步骤2。否，请执行步骤3。如能访问OBS，单击右上方登录的用户，在下拉列表中选择“我的凭证”。请根据“如何管理访问密钥”操作指导，确认当前AK/SK是否是当前账号创建的AK/SK。

帮助中心 > AI开发平台ModelArts > 常见问题 > 一般性问题
使用ModelArts Standard自动学习实现口罩检测 - AI开发平台ModelArts

数据集：下拉选择已下载的数据集（步骤2中已成功导入的数据集，默认为下拉数据集列表中的第一个数据集）。输出路径：选择步骤2的3中的数据集输出位置。训练规格：根据您的实际需要选择对应的训练规格。确认无误后单击右下角“创建项目”可自动跳转至自动学习的运行总览页面。步骤四：运行工作流在自动

 帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard自动学习
资源超分对Notebook实例有什么影响？ - AI开发平台ModelArts

时启动了6个2U的实例，如果其中一个实例CPU使用增大到超过节点的上限（8U）时，k8S会将使用资源最多的实例终止掉。因此超分会带来实例重启的风险，请不要超分使用。父主题：更多功能咨询

 帮助中心 > AI开发平台ModelArts > 常见问题 > Standard Notebook > 更多功能咨询
GPU A系列裸金属服务器节点内如何进行NVLINK带宽性能测试方法？ - AI开发平台ModelArts

A系列裸金属服务器，单台服务器GPU间是走NVLINK，可以通过相关命令查询GPU拓扑模式： nvidia-smi topo -m 图1 查询GPU拓扑模式操作步骤使用以下脚本测得GPU服务器内NVLINK带宽性能。 import torch import numpy as np device =

帮助中心 > AI开发平台ModelArts > 常见问题 > Lite Server
使用CES监控Lite Server资源 - AI开发平台ModelArts

Error硬件故障如果业务受到影响，转硬件换卡业务可能受到影响终止 NPU: 需要重启实例 RebootVirtualMachine 提示当前故障很可能需要重启进行恢复在收集必要信息后，重启以尝试恢复重启可能中断客户业务 NPU: 需要复位SOC ResetSOC 提示当前故障很可能需要复位SOC进行恢复

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Server） > Lite Server资源管理 > 监控Lite Server资源
GPU A系列裸金属服务器无法获取显卡如何解决 - AI开发平台ModelArts

没安装nvidia-fabricmanager组件或被误卸载。处理方法若未安装fabricmanager，则需安装改组件。若已安装fabricmanager，运行以下命令重启fabricmanager.service。 systemctl restart nvidia-fabricmanager.service

帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Server
如何安装C++的依赖库？ - AI开发平台ModelArts

如何安装C++的依赖库？在训练作业的过程中，会使用到第三方库。以C++为例，请参考如下操作步骤进行安装：将源码下载至本地并上传到OBS。使用OBS客户端上传文件的操作请参见上传文件。将上传到OBS的源码使用Moxing复制到开发环境Notebook中。以下为使用EVS挂载

 帮助中心 > AI开发平台ModelArts > 常见问题 > Standard训练作业 > 编写训练代码
从容器镜像中导入模型文件创建模型 - AI开发平台ModelArts

使用容器化部署，导入的元模型有大小限制，详情请参见导入模型对于镜像大小限制。前提条件确保您使用的OBS目录与ModelArts在同一区域。创建模型操作步骤登录ModelArts管理控制台，在左侧导航栏中选择“模型管理”，进入模型列表页面。单击左上角的“创建模型”，进入“创建模型”页面。在“创建应用”页面，填写相关参数。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard部署模型并推理预测 > 创建模型
NPU服务器上配置Lite Server资源软件环境 - AI开发平台ModelArts

Xshell)连接到容器中进行开发，可以在容器中挂载宿主机的个人存储目录，用于存放代码和数据。当前指导中很多操作步骤在最新发放的Snt9b裸机环境中已经预置，无需用户再手动配置，用户在操作中如发现某个步骤已有预置配置可直接跳过该步骤。物理机环境配置配置超时参数。 SSH登录到Server服务器后，查看机器配置的超时参数。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Server） > Lite Server资源配置 > 配置Lite Server软件环境
在推理生产环境中部署推理服务 - AI开发平台ModelArts

export USE_VOCAB_PARALLEL=1 关闭词表切分的命令： unset USE_VOCAB_PARALLEL 配置后重启推理服务生效。 Matmul_all_reduce融合算子使用Matmul_all_reduce融合算子能提升全量推理性能，该算子对驱动

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.905）
使用VS Code调试代码时不能进入源码 - AI开发平台ModelArts

使用VS Code调试代码时不能进入源码如果已有launch.json文件，请直接看步骤三。步骤一：打开launch.json文件方法一：单击左侧菜单栏的Run（Ctrl+Shift+D）按钮，再单击create a launch.json file。如下图所示：方法二：单击上侧菜单栏中的Run

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard Notebook > VS Code使用技巧
从OBS中导入模型文件创建模型 - AI开发平台ModelArts

已完成训练的模型包，及其对应的推理代码和配置文件，且已上传至OBS目录中。确保您使用的OBS与ModelArts在同一区域。创建模型操作步骤登录ModelArts管理控制台，在左侧导航栏中选择“模型管理”，进入模型列表页面。单击左上角的“创建模型”，进入“创建模型”页面。在“创建模型”页面，填写相关参数。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard部署模型并推理预测 > 创建模型

总条数： 810

上一页
1
...
4
5
6
...
41
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

预训练 - AI开发平台ModelArts

SFT全参微调训练 - AI开发平台ModelArts

管理AI Gallery中的AI应用 - AI开发平台ModelArts

在Notebook上安装配置Grafana - AI开发平台ModelArts

裸金属服务器Euler OS升级NetworkManager-config-server导致SSH链接故障解决方案 - AI开发平台ModelArts

查询Notebook实例详情 - AI开发平台ModelArts

为什么在ModelArts数据标注平台标注数据提示标注保存失败？ - AI开发平台ModelArts

使用DCGM监控Lite Server资源 - AI开发平台ModelArts

提示“上传的AK/SK不可用”，如何解决？ - AI开发平台ModelArts

使用ModelArts Standard自动学习实现口罩检测 - AI开发平台ModelArts

资源超分对Notebook实例有什么影响？ - AI开发平台ModelArts

GPU A系列裸金属服务器节点内如何进行NVLINK带宽性能测试方法？ - AI开发平台ModelArts

使用CES监控Lite Server资源 - AI开发平台ModelArts

GPU A系列裸金属服务器无法获取显卡如何解决 - AI开发平台ModelArts

如何安装C++的依赖库？ - AI开发平台ModelArts

从容器镜像中导入模型文件创建模型 - AI开发平台ModelArts

NPU服务器上配置Lite Server资源软件环境 - AI开发平台ModelArts

在推理生产环境中部署推理服务 - AI开发平台ModelArts

使用VS Code调试代码时不能进入源码 - AI开发平台ModelArts

从OBS中导入模型文件创建模型 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线