搜索_华为云

上传算法至SFS - AI开发平台ModelArts

修改lr_scheduler.py文件，把第27行：t_mul=1. 注释掉。修改data文件夹下imagenet22k_dataset.py，把第28行：print("ERROR IMG LOADED: ", path) 注释掉。修改data文件夹下的build.py文件，把第112行：prefix

帮助中心 > AI开发平台ModelArts > 最佳实践 > 历史待下线案例 > 专属资源池训练 > 调试与训练 > 多机多卡
如何在Notebook中安装外部库？ - AI开发平台ModelArts

例如，通过JupyterLab在“TensorFlow-1.8”的环境中安装Shapely。打开一个Notebook实例，进入到Launcher界面。在“Notebook”区域下，选择“TensorFlow-1.8”，新建一个ipynb文件。在新建的Notobook中，在代码输入栏输入如下命令。

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard Notebook > 环境配置相关
如何知道是哪个节点是worker呢？ - AI开发平台ModelArts

的进程退出码，判断训练作业是否结束。通过task name判断的哪个节点是worker。下发的训练作业是一个volcano job，里边会有两个task：一个是ps、一个是worker。两个task的启动命令不同，会自动生成超参--task_name，ps的--task_name=ps，worker的

 帮助中心 > AI开发平台ModelArts > 常见问题 > Standard训练作业 > 功能咨询
哪里可以了解Atlas800训练服务器硬件相关内容 - AI开发平台ModelArts

哪里可以了解Atlas800训练服务器硬件相关内容场景描述本文提供Atlas800训练服务器硬件相关指南，包括三维视图、备件信息、HCCL常用方法以及网卡配置信息。 Atlas 800训练服务器三维视图 Atlas 800 训练服务器（型号9000）是基于华为鲲鹏920+Sn

帮助中心 > AI开发平台ModelArts > 常见问题 > Lite Server
华为云CCE集群纳管GPU裸金属服务器由于CloudInit导致纳管失败的解决方案 - AI开发平台ModelArts

华为云CCE集群纳管GPU裸金属服务器由于CloudInit导致纳管失败的解决方案问题现象创建出3台GPU裸金属服务器，使用A节点制作镜像，用于在CCE纳管裸金属服务器时，使用该镜像，但是纳管后发现服务器A纳管失败，剩下两台服务器纳管成功。原因分析在CCE纳管过程中，需要通过cloudinit

帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Server
准备镜像 - AI开发平台ModelArts
准备镜像 - AI开发平台ModelArts

# 在每个实例节点上运行此命令可以看到NPU卡状态 npu-smi info -l | grep Total # 在每个实例节点上运行此命令可以看到总卡数如出现错误，可能是机器上的NPU设备没有正常安装，或者NPU镜像被其他容器挂载。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.910） > 准备工作
训练模型时引用依赖包，如何创建训练作业？ - AI开发平台ModelArts

在代码目录下提供安装文件如果使用“我的算法”创建训练作业，则在创建算法时，可以把相关文件放置在配置的“代码目录”下，算法的“启动方式”必须选择“预置框架”。如果使用“自定义算法”创建训练作业，则可以把相关文件放置在配置的“代码目录”下，“启动方式”必须选择“预置框架”。需要在

 帮助中心 > AI开发平台ModelArts > 常见问题 > Standard训练作业 > 编写训练代码
SD3 Diffusers框架基于DevServer适配PyTorch NPU推理指导（6.3.907） - AI开发平台ModelArts

确保容器可以访问公网。资源规格要求推荐使用“西南-贵阳一”Region上的DevServer资源和Ascend Snt9B。软件配套版本表1 获取软件分类名称获取路径插件代码包 AscendCloud-6.3.907软件包中的AscendCloud-AIGC-6.3.907-xxx

帮助中心 > AI开发平台ModelArts > 最佳实践 > AIGC模型训练推理
安装Gallery CLI配置工具 - AI开发平台ModelArts

CLI配置工具包（云服务器）如果是在ModelArts Lite等云服务器安装Gallery CLI配置工具，则参考本节将工具包下载至云服务器。登录AI Gallery，单击右上角“我的Gallery”进入我的Gallery页面。左侧菜单栏选择“我的资源 > 云服务器”，单击专属资源池页签进入云服务详情页面。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（AI Gallery） > AI Gallery（新版） > Gallery CLI配置工具指南
自动学习项目中，如何进行增量训练？ - AI开发平台ModelArts

自动学习项目中，如何进行增量训练？在自动学习项目中，每训练一次，将自动产生一个训练版本。当前一次的训练结果不满意时（如对训练精度不满意），您可以适当增加高质量的数据，或者增减标签，然后再次进行训练。增量训练目前仅支持“图像分类”、“物体检测”、“声音分类”类型的自动学习项目。

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard自动学习 > 模型训练
GP Vnt1裸金属服务器用PyTorch报错CUDA initialization:CUDA unknown error - AI开发平台ModelArts

GP Vnt1裸金属服务器用PyTorch报错CUDA initialization:CUDA unknown error 问题现象在Vnt1 GPU裸金属服务器（Ubuntu18.04系统），安装NVIDIA 470+CUDA 11.4后使用“nvidia-smi”和“nvcc

帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Server
使用ModelArts Studio的Qwen2-7B模型框架实现对话问答 - AI开发平台ModelArts

本案例用于指导用户使用ModelArts Studio大模型即服务平台（下面简称为MaaS）的Qwen2-7B模型框架，创建并部署一个模型服务，实现对话问答。通过学习本案例，您可以快速了解如何在MaaS服务上的创建和部署模型。更多MaaS服务的使用指导请参见用户指南。操作流程开始使用如下样例前，请务必按准备工作指导完成必要操作。

帮助中心 > AI开发平台ModelArts > 快速入门
配置Lite Server存储 - AI开发平台ModelArts

Turbo文件系统。同一区域不同可用区之间文件系统与云服务器互通，因此保证SFS Turbo与Server服务器在同一区域即可。当创建文件系统后，您需要使用弹性裸金属服务器来挂载该文件系统，具体步骤请参考挂载NFS协议类型文件系统到云服务器（Linux）。为避免已挂载文件系统的云服务器重启后，挂载信息丢失，

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Server） > Lite Server资源配置
部署推理服务 - AI开发平台ModelArts

# 在每个实例节点上运行此命令可以看到NPU卡状态 npu-smi info -l | grep Total # 在每个实例节点上运行此命令可以看到总卡数如出现错误，可能是机器上的NPU设备没有正常安装，或者NPU镜像被其他容器挂载。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配PyTorch NPU推理指导（6.3.905）
创建单机多卡的分布式训练（DataParallel） - AI开发平台ModelArts

MindSpore引擎的分布式训练参见MindSpore官网。训练流程简述单机多卡数据并行训练流程介绍如下：将模型复制到多个GPU上将一个Batch的数据均分到每一个GPU上各GPU上的模型进行前向传播，得到输出主GPU（逻辑序号为0）收集各GPU的输出，汇总后计算损失分发损失，各GPU各自反向传播梯度

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 分布式模型训练
启动或停止Lite Server服务器 - AI开发平台ModelArts

确认信息无误，然后单击“确定”。只有处于“运行中/停止失败”状态的弹性节点Server可以执行停止操作。停止服务器为“强制关机”方式，会中断您的业务，请确保服务器上的文件已保存。父主题： Lite Server资源管理

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Server） > Lite Server资源管理
推理精度测试 - AI开发平台ModelArts

推理精度测试本章节介绍如何进行推理精度测试，请在Notebook的JupyterLab中另起一个Terminal，进行推理精度测试。 Step1 配置精度测试环境获取精度测试代码。精度测试代码存放在代码包AscendCloud-LLM的llm_tools/llm_evaluation目录中，代码目录结构如下。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.906）
使用ModelArts VSCode插件调试训练ResNet50图像分类模型 - AI开发平台ModelArts

Notebook等线上开发工具工程化开发体验不如IDE，但是本地开发服务器等资源有限，运行和调试环境大多使用团队公共搭建的CPU或GPU服务器，并且是多人共用，这带来一定的环境搭建和维护成本。因此使用本地IDE+远程Notebook结合的方式，可以同时享受IDE工程化开发和云上资源的即开即用，优势互补，满足开发者需求。

帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard开发环境
在ModelArts中如何查看OBS目录下的所有文件？ - AI开发平台ModelArts

在ModelArts中如何查看OBS目录下的所有文件？在使用Notebook或训练作业时，需要查看目录下的所有文件，您可以通过如下方式实现：通过OBS管理控制台进行查看。使用当前账户登录OBS管理控制台，去查找对应的OBS桶、文件夹、文件。通过接口判断路径是否存在。在已有

 帮助中心 > AI开发平台ModelArts > 常见问题 > 一般性问题
使用CES监控Lite Server资源 - AI开发平台ModelArts

NPU卡存在HBM的ECC错误，此事件上报相应错误信息这是一个用于辅助其他事件进行判断的事件，无需单独定位处理这是一个用于辅助其他事件进行判断的事件，无需单独定位处理 NPU: HCCS交换机端口故障 NpuHccsPortFault 重要 NPU的L1 1520交换机端口发生故障这是一个用于辅助其他事件进行判断的事件，无需单独定位处理

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Server） > Lite Server资源管理 > 监控Lite Server资源

总条数： 1427

上一页
1
...
11
12
13
...
72
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

上传算法至SFS - AI开发平台ModelArts

如何在Notebook中安装外部库？ - AI开发平台ModelArts

如何知道是哪个节点是worker呢？ - AI开发平台ModelArts

哪里可以了解Atlas800训练服务器硬件相关内容 - AI开发平台ModelArts

华为云CCE集群纳管GPU裸金属服务器由于CloudInit导致纳管失败的解决方案 - AI开发平台ModelArts

准备镜像 - AI开发平台ModelArts

训练模型时引用依赖包，如何创建训练作业？ - AI开发平台ModelArts

SD3 Diffusers框架基于DevServer适配PyTorch NPU推理指导（6.3.907） - AI开发平台ModelArts

安装Gallery CLI配置工具 - AI开发平台ModelArts

自动学习项目中，如何进行增量训练？ - AI开发平台ModelArts

GP Vnt1裸金属服务器用PyTorch报错CUDA initialization:CUDA unknown error - AI开发平台ModelArts

使用ModelArts Studio的Qwen2-7B模型框架实现对话问答 - AI开发平台ModelArts

配置Lite Server存储 - AI开发平台ModelArts

部署推理服务 - AI开发平台ModelArts

创建单机多卡的分布式训练（DataParallel） - AI开发平台ModelArts

启动或停止Lite Server服务器 - AI开发平台ModelArts

推理精度测试 - AI开发平台ModelArts

使用ModelArts VSCode插件调试训练ResNet50图像分类模型 - AI开发平台ModelArts

在ModelArts中如何查看OBS目录下的所有文件？ - AI开发平台ModelArts

使用CES监控Lite Server资源 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线