搜索_华为云

训练速度突然下降以及执行nvidia-smi卡顿如何解决？ - AI开发平台ModelArts

可以帮助用户进行GPU优化和故障排除。但是建议在业务软件或训练算法中，避免频繁使用“nvidia-smi”命令功能获取相关信息，存在锁死的风险。出现D+进程后可以尝试如下方法：方法1：可以根据ps -aux查到的进程号，使用kill -9强制关闭进程。 sudo kill

帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Server
SDXL&SD1.5 WebUI基于Lite Cluster适配NPU推理指导（6.3.906） - AI开发平台ModelArts

推理部署推荐使用“西南-贵阳一”Region上的Cluster资源。获取软件获取插件代码包AscendCloud-6.3.906-xxx.zip中的AscendCloud-AIGC-6.3.906-xxx.zip文件。获取路径：Support-E。如果没有软件下载权限，请联系您所在企业的华为方技术支持下载获取。

帮助中心 > AI开发平台ModelArts > 最佳实践 > AIGC模型训练推理
Ascend相关问题 - AI开发平台ModelArts

Ascend相关问题 Cann软件与Ascend驱动版本不匹配训练作业的日志出现detect failed（昇腾预检失败）父主题：训练作业

 帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业
镜像保存时报错“container size %dG is greater than threshold %dG”如何解决？ - AI开发平台ModelArts

ook，使用新建的Notebook时，注意减少软件包的安装或文件的下载等操作，也可以减少容器大小；减少镜像文件的大小如果无法确认哪些包或文件可以不安装，那么可以选择一个较小的镜像来重建Notebook，然后在其中再安装需要的软件或文件。目前公共镜像中占用空间最小的是mindspore1

帮助中心 > AI开发平台ModelArts > 故障排除 > 开发环境 > 自定义镜像故障
准备镜像 - AI开发平台ModelArts
准备镜像 - AI开发平台ModelArts

构建ModelArts Standard推理镜像获取模型软件包和依赖包，并上传到ECS的目录下（可自定义路径），获取地址参考表1。在ModelArts官方提供的基础镜像上，构建一个用于ModelArts Standard推理部署的镜像。在模型软件包和依赖包的同层目录下，创建并编辑Dockerfile。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.906） > 准备工作
Lite Cluster使用前必读 - AI开发平台ModelArts

Lite Cluster使用前必读 Lite Cluster使用流程 Lite Cluster高危操作一览表不同机型的对应的软件配套版本

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster）
VS Code连接Notebook方式介绍 - AI开发平台ModelArts

该方式是指用户使用VS Code Remote SSH插件手工配置连接信息，连接云上实例。安装VS Code软件使用VS Code连接开发环境时，首先需要安装VS Code软件。 VS Code下载方式：下载地址: https://code.visualstudio.com/updates/v1_85

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Notebook进行AI开发调试 > 通过VS Code远程使用Notebook实例
SD1.5基于DevServer适配PyTorch NPU Finetune训练指导（6.3.904） - AI开发平台ModelArts

pytorch_2.1.0 获取软件和镜像表2 获取软件和镜像分类名称获取路径插件代码包 ascendcloud-aigc-6.3.904-xxx.tar.gz 文件名中的xxx表示具体的时间戳，以包的实际时间为准。获取路径：Support-E网站。说明：如果没有软件下载权限，请联系您所在企业的华为方技术支持下载获取。

帮助中心 > AI开发平台ModelArts > 最佳实践 > AIGC模型训练推理
pip介绍及常用命令 - AI开发平台ModelArts

#指定版本安装 pip install SomePackage #最新版本安装 pip uninstall SomePackage #卸载软件版本其他命令请使用pip --help命令查询。父主题：更多功能咨询

 帮助中心 > AI开发平台ModelArts > 常见问题 > Standard Notebook > 更多功能咨询
Notebook专属预置镜像列表 - AI开发平台ModelArts

ModelArts开发环境提供的预置镜像主要包含：常用预置包：基于标准的Conda环境，预置了常用的AI引擎，常用的数据分析软件包，例如Pandas，Numpy等，常用的工具软件，例如cuda，cudnn等，满足AI开发常用需求。预置Conda环境：每个预置镜像都会创建一个相对应的Cond

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 制作自定义镜像用于ModelArts Standard > ModelArts支持的预置镜像列表
昇腾能力应用地图 - AI开发平台ModelArts

模型进行了基于昇腾NPU的适配工作，可以直接使用适配过的模型进行推理训练。表1 LLM模型训练能力支持模型支持模型参数量应用场景软件技术栈指导文档 Llama2 Llama2-7b Llama2-13b Llama2-70b 预训练、SFT全参微调、LoRA微调 ModelLink

帮助中心 > AI开发平台ModelArts > 最佳实践
通过VS Code远程使用Notebook实例 - AI开发平台ModelArts

通过VS Code远程使用Notebook实例 VS Code连接Notebook方式介绍安装VS Code软件 VS Code一键连接Notebook VS Code ToolKit连接Notebook VS Code手动连接Notebook 在VS Code中上传下载文件父主题：

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Notebook进行AI开发调试
GPU A系列裸金属服务器使用CUDA cudaGetDeviceCount()提示CUDA initializat失败 - AI开发平台ModelArts

| grep nvidia-fabricmanager # 如果有nvidia-fabricmanager软件，将其卸载 # 如果无nvidia-fabricmanager软件，请跳过此命令 sudo apt-get autoremove --purge nvidia-fabricmanager-版本

 帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Server
ModelArts统一镜像列表 - AI开发平台ModelArts

rc2-py_3.9-euler_2.10.7-aarch64-snt9b-20240727152329-0f2c29a PyPI 程序包 Yum 软件包 mindspore 2.3.0 mindspore-lite 2.3.0 mindinsight 2.3.0 mindarmour 2

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 制作自定义镜像用于ModelArts Standard > ModelArts支持的预置镜像列表
Lite Cluster资源开通 - AI开发平台ModelArts

安装后执行脚本：请输入脚本命令，命令中不能包含中文字符，需传入Base64转码后的脚本，转码后的字符数不能超过2048。脚本将在Kubernetes软件安装后执行，不影响Kubernetes软件安装。说明：暂不支持资源池中的存量节点池修改名称。请不要在安装后执行脚本中使用reboot命令立即重启，如果需要重启，可以使用“shutdown

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster）
准备镜像 - AI开发平台ModelArts
准备镜像 - AI开发平台ModelArts

构建ModelArts Standard推理镜像获取模型软件包和依赖包，并上传到ECS的目录下（可自定义路径），获取地址参考表1。在ModelArts官方提供的基础镜像上，构建一个用于ModelArts Standard推理部署的镜像。在模型软件包和依赖包的同层目录下，创建并编辑Dockerfile。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.905） > 准备工作
使用CES监控Lite Server资源 - AI开发平台ModelArts

NPU：Docker容器环境检测 NpuContainerEnvSystem 重要 Docker不可用确认docker软件是否正常无法使用docker软件重要容器插件Ascend-Docker-Runtime未安装安装容器插件Ascend-Docker-Runtime，否则影响容器使用昇腾卡

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Server） > Lite Server资源管理 > 监控Lite Server资源
Lite功能介绍 - AI开发平台ModelArts

Lite Server提供不同型号的xPU裸金属服务器，您可以通过弹性公网IP进行访问，在给定的操作系统镜像上可以自行安装加速卡相关的驱动和其他软件，使用SFS或OBS进行数据存储和读取相关的操作，满足算法工程师进行日常训练的需要。 ModelArts Lite Cluster面向k8

帮助中心 > AI开发平台ModelArts > 产品介绍 > 功能介绍
使用Prometheus查看Lite Cluster监控指标 - AI开发平台ModelArts

对接ModelArts 使用kubectl连接集群，详细操作请参考通过kubectl连接集群。配置Kubernetes的访问授权。使用任意文本编辑器创建prometheus-rbac-setup.yml，YAML文件内容如下：该YAML用于定义Prometheus要用到的角

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster资源管理 > 监控Lite Cluster资源
ModelArts - AI开发平台ModelArts
ModelArts - AI开发平台ModelArts

运行第一条Workflow 开发一条Workflow 开发工具在 AI 开发过程中搭建开发环境、选择AI框架、选择算法、调试代码、安装相应软件或者硬件加速驱动库都不是容易的事情，使得学习 AI 开发上手慢门槛高。为了解决这些问题，ModelArts开发工具Notebook简化了整个开发过程，以降低开发门槛。

帮助中心 > AI开发平台ModelArts > 功能总览

总条数： 315

上一页
1
...
8
9
10
...
16
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

训练速度突然下降以及执行nvidia-smi卡顿如何解决？ - AI开发平台ModelArts

SDXL&SD1.5 WebUI基于Lite Cluster适配NPU推理指导（6.3.906） - AI开发平台ModelArts

Ascend相关问题 - AI开发平台ModelArts

镜像保存时报错“container size %dG is greater than threshold %dG”如何解决？ - AI开发平台ModelArts

准备镜像 - AI开发平台ModelArts

Lite Cluster使用前必读 - AI开发平台ModelArts

VS Code连接Notebook方式介绍 - AI开发平台ModelArts

SD1.5基于DevServer适配PyTorch NPU Finetune训练指导（6.3.904） - AI开发平台ModelArts

pip介绍及常用命令 - AI开发平台ModelArts

Notebook专属预置镜像列表 - AI开发平台ModelArts

昇腾能力应用地图 - AI开发平台ModelArts

通过VS Code远程使用Notebook实例 - AI开发平台ModelArts

GPU A系列裸金属服务器使用CUDA cudaGetDeviceCount()提示CUDA initializat失败 - AI开发平台ModelArts

ModelArts统一镜像列表 - AI开发平台ModelArts

Lite Cluster资源开通 - AI开发平台ModelArts

准备镜像 - AI开发平台ModelArts

使用CES监控Lite Server资源 - AI开发平台ModelArts

Lite功能介绍 - AI开发平台ModelArts

使用Prometheus查看Lite Cluster监控指标 - AI开发平台ModelArts

ModelArts - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线