搜索_华为云

使用SSH工具连接Notebook，服务器的进程被清理了，GPU使用率显示还是100% - AI开发平台ModelArts

使用SSH工具连接Notebook，服务器的进程被清理了，GPU使用率显示还是100% 原因是代码运行卡死导致被进程清理，GPU显存没有释放；或者代码运行过程中内存溢出导致程序被清理，需要释放下显存，清理GPU，然后重新启动。为了避免进程结束引起的代码未保存，建议您每隔一段时间保存下代码输出至OBS桶或者容器

 帮助中心 > AI开发平台ModelArts > 常见问题 > Standard Notebook > Notebook实例常见错误
创建IAM用户并授权使用ModelArts - AI开发平台ModelArts

、模型推理部署均需要通过OBS进行数据中转。 OBS OperateAccess 必选 SWR容器镜像仓库授予子用户使用SWR服务权限。ModelArts的自定义镜像功能依赖镜像服务SWR FullAccess权限。 SWR OperateAccess 必选密钥管理服务当子用户使用ModelArts

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > ModelArts Standard准备工作 > 配置ModelArts Standard访问授权
场景介绍 - AI开发平台ModelArts
场景介绍 - AI开发平台ModelArts

准备训练数据，可以用本案使用的数据集，也可以使用自己准备的数据集。准备权重准备所需的权重文件。准备代码准备AscendSpeed训练代码。准备镜像准备训练模型适用的容器镜像。准备Notebook 本案例需要创建一个Notebook，以便能够通过它访问SFS Turbo服务。随后，通过Notebook将OBS中的数据上传至SFS

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配PyTorch NPU训练指导（6.3.909）
使用Cloud Shell调试生产训练作业 - AI开发平台ModelArts

sleep.py示例： import os os.system('sleep 60m') 图4 预置框架启动方式如果训练作业使用的是自定义镜像在创建训练作业时，“创建方式”选择“自定义算法”，“启动方式”选择“自定义”，“启动命令”输入“sleep 60m”。这样启动的作业将会持续运行60分钟。您可通过Cloud

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 管理模型训练作业
发布数据 - AI开发平台ModelArts
发布数据 - AI开发平台ModelArts

如果选择本地的数据集发布，则参见表3配置数据集信息。表3 参数说明（本地上传）参数说明资产标题在AI Gallery显示的资产名称，建议按照您的目的设置。来源选择“本地上传”。单次最多支持100个文件同时上传，总大小不超过5GB。上传数据从本地文件中选择需要发布的数据集。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（AI Gallery） > AI Gallery（旧版） > 发布分享
配置Lite Cluster存储 - AI开发平台ModelArts

配置Lite Cluster存储如果没有挂载任何外部存储，此时可用存储空间根据dockerBaseSize的配置来决定，可访问的存储空间比较小，因此建议通过挂载外部存储空间解决存储空间受限问题。容器中挂载存储有多种方式，不同的场景下推荐的存储方式不一样，详情如表1所示。容器存

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster资源配置
GPU A系列裸金属服务器节点内如何进行NVLINK带宽性能测试方法？ - AI开发平台ModelArts

A系列裸金属服务器节点内如何进行NVLINK带宽性能测试方法？场景描述本文指导如何进行节点内NVLINK带宽性能测试，适用的环境为：Ant8或者Ant1 GPU裸金属服务器，且服务器中已经安装相关GPU驱动软件，以及Pytorch2.0。 GPU A系列裸金属服务器，单台服务

 帮助中心 > AI开发平台ModelArts > 常见问题 > Lite Server
解析Manifest文件 - AI开发平台ModelArts

解析Manifest文件解析Manifest文件，支持本地和OBS。如果是OBS，需要Session信息。 manifest.parse_manifest(manifest_path, encoding='utf-8') 示例代码通过Manifest路径来解析获取Manifest的信息。

帮助中心 > AI开发平台ModelArts > SDK参考 > 数据管理 > Manifest管理
场景介绍 - AI开发平台ModelArts
场景介绍 - AI开发平台ModelArts

准备AscendCloud-3rdLLM-6.3.905-xxx.zip和AscendCloud-OPP-6.3.905-xxx.zip。准备镜像准备推理模型适用的容器镜像。准备Notebook 本案例在Notebook上部署推理服务进行调试，因此需要创建Notebook。部署推理服务在Notebook调试环境中部署推理服务

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.905）
准备代码 - AI开发平台ModelArts
准备代码 - AI开发平台ModelArts

|──LLaMA-Factory # 执行install.sh后生成此目录,容器内执行参考步骤三启动容器镜像 |──data # 原始数据目录，如使用自定义数据，参考准备数据（可选） |──

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配LlamaFactory PyTorch NPU训练指导（6.3.909） > 准备工作
连接远端开发环境时，一直处于"Setting up SSH Host xxx: Copying VS Code Server to host with scp"超过10分钟以上，如何解决？ - AI开发平台ModelArts

Copying VS Code Server to host with scp"超过10分钟以上，如何解决？问题现象原因分析通过查看日志发现本地vscode-scp-done.flag显示成功上传，但远端未接收到。解决方法关闭VS Code所有窗口后，回到ModelArts控制台界面再次单击界面上的“VS

帮助中心 > AI开发平台ModelArts > 故障排除 > 开发环境 > VS Code连接开发环境失败故障处理
配置IAM权限 - AI开发平台ModelArts

"Action": [ "vpc:*:*", "ecs:*:get*", "ecs:*:list*" ], "Effect": "Allow"

帮助中心 > AI开发平台ModelArts > 最佳实践 > 历史待下线案例 > 专属资源池训练 > 基本配置 > 权限配置
开发环境管理 - AI开发平台ModelArts

获取动态挂载OBS实例详情动态卸载OBS 添加资源标签删除资源标签查询Notebook资源类型下的标签查询支持的镜像列表注册自定义镜像查询用户镜像组列表查询镜像详情删除镜像

 帮助中心 > AI开发平台ModelArts > API参考
准备代码 - AI开发平台ModelArts
准备代码 - AI开发平台ModelArts

|──LLaMA-Factory # 执行install.sh后生成此目录,容器内执行参考Step3 启动容器镜像 |──data # 原始数据目录，如使用自定义数据，参考准备数据（可选） |──

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配LlamaFactory PyTorch NPU训练指导（6.3.907） > 准备工作
准备代码 - AI开发平台ModelArts
准备代码 - AI开发平台ModelArts

|──LLaMA-Factory # 执行install.sh后生成此目录,容器内执行参考Step3 启动容器镜像 |──data # 原始数据目录，如使用自定义数据，参考准备数据（可选） |──

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配LlamaFactory PyTorch NPU训练指导（6.3.908） > 准备工作
解析Pascal VOC文件 - AI开发平台ModelArts

解析Pascal VOC文件解析xml文件支持本地和OBS，如果是OBS，需要Session信息。 PascalVoc.parse_xml(xml_file_path, session=None) 示例代码指定xml路径，通过调用parse_xml来解析获取xml文件的信息。

帮助中心 > AI开发平台ModelArts > SDK参考 > 数据管理 > Manifest管理
在推理生产环境中部署推理服务 - AI开发平台ModelArts

根据需要自定义应用的名称和版本。模型来源选择“从对象存储服务（OBS）中选择”，元模型选择转换后模型的存储路径，AI引擎选择“Custom”，引擎包选择准备镜像中上传的推理镜像。系统运行架构选择“ARM”。图2 设置AI应用单击“立即创建”开始AI应用创建，待应用状态显示“正常”即完成AI应用创建。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.906）
日志提示“no socket interface found” - AI开发平台ModelArts

日志提示“no socket interface found” 问题现象在pytorch镜像运行分布式作业时，设置NCCL日志级别，代码如下： import os os.environ["NCCL_DEBUG"] = "INFO" 会出现如下错误： job0879f61e-jo

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 业务代码问题
多模态模型推理性能测试 - AI开发平台ModelArts

静态benchmark验证本章节介绍如何进行静态benchmark验证。已经上传benchmark验证脚本到推理容器中。如果在步骤四制作推理镜像步骤中已经上传过AscendCloud-LLM-x.x.x.zip并解压，无需重复执行。进入benchmark_tools目录下，运行静态benchmark验证。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Server适配PyTorch NPU推理指导（6.3.909） > 推理性能测试
历史待下线案例 - AI开发平台ModelArts

Gallery的订阅算法实现花卉识别示例：从 0 到 1 制作自定义镜像并用于训练（Pytorch+CPU/GPU）示例：从 0 到 1 制作自定义镜像并用于训练（MPI+CPU/GPU）示例：从 0 到 1 制作自定义镜像并用于训练（MindSpore+Ascend）使用ModelArts

帮助中心 > AI开发平台ModelArts > 最佳实践

总条数： 959

上一页
1
...
29
30
31
...
48
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

使用SSH工具连接Notebook，服务器的进程被清理了，GPU使用率显示还是100% - AI开发平台ModelArts

创建IAM用户并授权使用ModelArts - AI开发平台ModelArts

场景介绍 - AI开发平台ModelArts

使用Cloud Shell调试生产训练作业 - AI开发平台ModelArts

发布数据 - AI开发平台ModelArts

配置Lite Cluster存储 - AI开发平台ModelArts

GPU A系列裸金属服务器节点内如何进行NVLINK带宽性能测试方法？ - AI开发平台ModelArts

解析Manifest文件 - AI开发平台ModelArts

场景介绍 - AI开发平台ModelArts

准备代码 - AI开发平台ModelArts

连接远端开发环境时，一直处于"Setting up SSH Host xxx: Copying VS Code Server to host with scp"超过10分钟以上，如何解决？ - AI开发平台ModelArts

配置IAM权限 - AI开发平台ModelArts

开发环境管理 - AI开发平台ModelArts

准备代码 - AI开发平台ModelArts

准备代码 - AI开发平台ModelArts

解析Pascal VOC文件 - AI开发平台ModelArts

在推理生产环境中部署推理服务 - AI开发平台ModelArts

日志提示“no socket interface found” - AI开发平台ModelArts

多模态模型推理性能测试 - AI开发平台ModelArts

历史待下线案例 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线