搜索_华为云

训练速度突然下降以及执行nvidia-smi卡顿如何解决？ - AI开发平台ModelArts

“nvidia-smi”是一个NVIDIA GPU监视器命令行工具，用于查看GPU的使用情况和性能指标，可以帮助用户进行GPU优化和故障排除。但是建议在业务软件或训练算法中，避免频繁使用“nvidia-smi”命令功能获取相关信息，存在锁死的风险。出现D+进程后可以尝试如下方法：方法1：可以根据ps

帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Server
自定义镜像使用场景 - AI开发平台ModelArts

环境进行固化，提供合适的软件、操作系统、网络等配置策略，通过在硬件上的充分测试，确保其兼容性和性能最合适。方便自定义，预置镜像已经在SWR仓库中，通过对预置镜像的扩展完成自定义镜像注册。安全可信，基于安全加固最佳实践，访问策略、用户权限划分、开发软件漏洞扫描、操作系统安全加固等方式，确保镜像使用的安全性。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 制作自定义镜像用于ModelArts Standard
Wav2Lip基于DevServer适配PyTorch NPU训练指导（6.3.902） - AI开发平台ModelArts

0.1 PyTorch 2.1 Python 3.10 获取软件获取Wav2Lip Ascend适配代码ascendcloud-aigc-6.3.902-*.tar.gz文件。获取路径：Support网站。如果没有软件下载权限，请联系您所在企业的华为方技术支持下载获取。 ascendcloud-aigc-6

帮助中心 > AI开发平台ModelArts > 最佳实践 > 数字人模型训练推理
场景介绍 - AI开发平台ModelArts
场景介绍 - AI开发平台ModelArts

贴到同一个文件中，而不是调用某些抽象提取出的模块化库。Diffusers的这种设计原则的好处是代码简单易用、对代码贡献者友好。然而，这种反软件结构化的设计也有明显的缺点。由于缺乏统一的模块化库，对于昇腾适配而言变得更加复杂，必须针对每个不同业务的Pipeline进行单独适配。本文以Stable

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > 基于AIGC模型的GPU推理业务迁移至昇腾指导
Lite Cluster高危操作一览表 - AI开发平台ModelArts

回退版本、重装插件。升级、卸载volcano插件。可能导致作业调度异常。中回退版本、重装插件。卸载ICAgent插件。可能导致日志、监控功能异常。中回退版本、重装插件。 helm 升级、回退、卸载os-node-agent。导致驱动升级、故障检测、指标采集、节点运维功能异常。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster使用前必读
DevServer管理 - AI开发平台ModelArts

DevServer管理查询用户所有DevServer实例列表创建DevServer 查询DevServer实例详情删除DevServer实例实时同步用户所有DevServer实例状态启动DevServer实例停止DevServer实例

 帮助中心 > AI开发平台ModelArts > API参考
场景介绍 - AI开发平台ModelArts
场景介绍 - AI开发平台ModelArts

的部署，需要先联系您所在企业的华为方技术支持。约束限制本文档适配昇腾云ModelArts 6.3.905版本，请参考表1获取配套版本的软件包，请严格遵照版本配套关系使用本文档。本文档中的模型运行环境是ModelArts Lite DevServer。镜像适配的Cann版本是cann_8

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配PyTorch NPU训练指导（6.3.905）
PyCharm ToolKit工具中Edit Credential时，出现错误 - AI开发平台ModelArts

在本地PC的hosts文件中配置域名和IP地址的对应关系。三、网络代理设置如果用户使用的网络有代理设置要求，请检查代理配置是否正确。也可以使用手机热点网络连接进行测试排查。检查代理配置是否正确。图2 PyCharm网络代理设置四、AK/SK不正确获取到的AK/SK信息不正确，

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard Notebook > PyCharm Toolkit使用
使用ModelArts Standard部署模型并推理预测 - AI开发平台ModelArts

使用ModelArts Standard部署模型并推理预测推理部署使用场景创建AI应用创建AI应用规范参考将AI应用部署为实时推理作业将AI应用部署为批量推理服务管理AI应用管理同步在线服务管理批量推理作业

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard）
Lite Cluster资源开通 - AI开发平台ModelArts

安装后执行脚本：请输入脚本命令，命令中不能包含中文字符，需传入Base64转码后的脚本，转码后的字符数不能超过2048。脚本将在Kubernetes软件安装后执行，不影响Kubernetes软件安装。说明：暂不支持资源池中的存量节点池修改名称。请不要在安装后执行脚本中使用reboot命令立即重启，如果需要重启，可以使用“shutdown

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster）
ModelArts - AI开发平台ModelArts
ModelArts - AI开发平台ModelArts

运行第一条Workflow 开发一条Workflow 开发工具在 AI 开发过程中搭建开发环境、选择AI框架、选择算法、调试代码、安装相应软件或者硬件加速驱动库都不是容易的事情，使得学习 AI 开发上手慢门槛高。为了解决这些问题，ModelArts开发工具Notebook简化了整个开发过程，以降低开发门槛。

帮助中心 > AI开发平台ModelArts > 功能总览
GPT-2基于Server适配PyTorch GPU的训练推理指导 - AI开发平台ModelArts

NODE_RANK=0 执行以下命令，开始预训练。 nohup sh ./pretrain_gpt2.sh & 图3 开始预训练实时查看训练日志，监控程序。 tail -f nohup.out 如果显示如下信息，表示模型训练完成。图4 模型训练完成在训练过程中观察单GPU卡的利用率，如下：

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Server） > Lite Server资源使用
Lite功能介绍 - AI开发平台ModelArts

Lite Server提供不同型号的xPU裸金属服务器，您可以通过弹性公网IP进行访问，在给定的操作系统镜像上可以自行安装加速卡相关的驱动和其他软件，使用SFS或OBS进行数据存储和读取相关的操作，满足算法工程师进行日常训练的需要。 ModelArts Lite Cluster面向k8

帮助中心 > AI开发平台ModelArts > 产品介绍 > 功能介绍
SDXL WebUI基于DevServer适配PyTorch NPU推理指导（6.3.902） - AI开发平台ModelArts

on上的DevServer资源和Ascend Snt9B单机单卡。获取软件获取插件代码包ascendcloud-aigc-6.3.902-*.tar.gz文件。获取路径：Support网站。如果没有软件下载权限，请联系您所在企业的华为方技术支持下载获取。 ascendcloud-aigc-6

帮助中心 > AI开发平台ModelArts > 最佳实践 > AIGC模型训练推理
Standard模型训练 - AI开发平台ModelArts

个训练作业，方便用户选择最优的模型提供训练作业的事件信息（训练作业生命周期中的关键事件点）、训练日志（训练作业运行过程和异常信息）、资源监控（资源使用率数据）、Cloud Shell（登录训练容器的工具）等能力，方便用户更清楚得了解训练作业运行过程，并在遇到任务异常时更加准确的排查定位问题

 帮助中心 > AI开发平台ModelArts > 产品介绍 > 功能介绍 > Standard功能介绍
SD1.5基于DevServer适配PyTorch NPU Finetune训练指导（6.3.904） - AI开发平台ModelArts

pytorch_2.1.0 获取软件和镜像表2 获取软件和镜像分类名称获取路径插件代码包 ascendcloud-aigc-6.3.904-xxx.tar.gz 文件名中的xxx表示具体的时间戳，以包的实际时间为准。获取路径：Support-E网站。说明：如果没有软件下载权限，请联系您所在企业的华为方技术支持下载获取。

帮助中心 > AI开发平台ModelArts > 最佳实践 > AIGC模型训练推理
数据管理（旧版） - AI开发平台ModelArts

数据管理（旧版）查询数据集列表创建数据集查询数据集详情更新数据集删除数据集查询数据集的统计信息查询数据集监控数据查询数据集的版本列表创建数据集标注版本查询数据集版本详情删除数据集标注版本查询样本列表批量添加样本批量删除样本查询单个样本信息获取样本搜索条件

 帮助中心 > AI开发平台ModelArts > API参考 > 历史API
场景介绍 - AI开发平台ModelArts
场景介绍 - AI开发平台ModelArts

的部署，需要先联系您所在企业的华为方技术支持。约束限制本文档适配昇腾云ModelArts 6.3.907版本，请参考表1获取配套版本的软件包，请严格遵照版本配套关系使用本文档。本文档中的模型运行环境是ModelArts Lite DevServer。镜像适配的Cann版本是cann_8

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配LlamaFactory PyTorch NPU训练指导（6.3.907）
准备镜像 - AI开发平台ModelArts
准备镜像 - AI开发平台ModelArts

构建ModelArts Standard推理镜像获取模型软件包和依赖包，并上传到ECS的目录下（可自定义路径），获取地址参考表1。在ModelArts官方提供的基础镜像上，构建一个用于ModelArts Standard推理部署的镜像。在模型软件包和依赖包的同层目录下，创建并编辑Dockerfile。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.905） > 准备工作
场景介绍 - AI开发平台ModelArts
场景介绍 - AI开发平台ModelArts

华为方技术支持。约束限制本方案目前仅适用于部分企业客户。本文档适配昇腾云ModelArts 6.3.906版本，请参考软件配套版本获取配套版本的软件包，请严格遵照版本配套关系使用本文档。推理部署使用的服务框架是vLLM。vLLM支持v0.4.2版本。仅支持FP16和BF16数据类型推理。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.906）

总条数： 336

上一页
1
...
11
12
13
...
17
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

训练速度突然下降以及执行nvidia-smi卡顿如何解决？ - AI开发平台ModelArts

自定义镜像使用场景 - AI开发平台ModelArts

Wav2Lip基于DevServer适配PyTorch NPU训练指导（6.3.902） - AI开发平台ModelArts

场景介绍 - AI开发平台ModelArts

Lite Cluster高危操作一览表 - AI开发平台ModelArts

DevServer管理 - AI开发平台ModelArts

场景介绍 - AI开发平台ModelArts

PyCharm ToolKit工具中Edit Credential时，出现错误 - AI开发平台ModelArts

使用ModelArts Standard部署模型并推理预测 - AI开发平台ModelArts

Lite Cluster资源开通 - AI开发平台ModelArts

ModelArts - AI开发平台ModelArts

GPT-2基于Server适配PyTorch GPU的训练推理指导 - AI开发平台ModelArts

Lite功能介绍 - AI开发平台ModelArts

SDXL WebUI基于DevServer适配PyTorch NPU推理指导（6.3.902） - AI开发平台ModelArts

Standard模型训练 - AI开发平台ModelArts

SD1.5基于DevServer适配PyTorch NPU Finetune训练指导（6.3.904） - AI开发平台ModelArts

数据管理（旧版） - AI开发平台ModelArts

场景介绍 - AI开发平台ModelArts

准备镜像 - AI开发平台ModelArts

场景介绍 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线