搜索_华为云

准备Notebook - AI开发平台ModelArts

snt9b，显存规格建议选择64G以上的规格，磁盘规格建议选择500GB及以上。创建完Notebook后，待Notebook状态变为“运行中”时，打开Notebook，可参考后续章节在Notebook调试环境中部署推理服务。父主题：准备工作

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.910） > 准备工作
部署的在线服务状态为告警 - AI开发平台ModelArts

请检查您的模型是否能正常运行。例如模型依赖的资源是否故障，需要排查推理日志。实例pod数量异常。如果您曾经找过运维人员删除过异常的实例pod，事件中可能会出现告警“服务异常，不正常的实例数为XXX”。在出现这种告警后，服务会自动拉起新的正常实例，从而恢复到正常运行状态。请您耐心等待。父主题：

帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 服务部署
GPU裸金属服务器更换NVIDIA驱动后执行nvidia-smi提示Failed to initialize NVML - AI开发平台ModelArts

NVML: Driver/library version mismatch 处理方法执行命令：lsmod | grep nvidia，查看内核中是否残留旧版nvidia，显示如下： nvidia_uvm 634880 8 nvidia_drm

帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Server
准备Notebook - AI开发平台ModelArts

snt9b，显存规格建议选择64G以上的规格，磁盘规格建议选择500GB及以上。创建完Notebook后，待Notebook状态变为“运行中”时，打开Notebook，可参考后续章节在Notebook调试环境中部署推理服务。父主题：准备工作

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.908） > 准备工作
使用moxing适配OBS路径，pandas读取文件报错 - AI开发平台ModelArts

必现的问题，使用本地Pycharm远程连接Notebook调试。建议与总结在创建训练作业前，推荐您先使用ModelArts开发环境调试训练代码，避免代码迁移过程中的错误。直接使用线上notebook环境调试请参考使用JupyterLab开发模型。配置本地IDE（Pycharm或者VSCode）联接

 帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 云上迁移适配故障
创建数据集 - AI开发平台ModelArts

ContentInfo参数参数是否必选参数类型描述 content_id 是 String AI Gallery中数据集资产的ID。 version_id 是 String AI Gallery中数据集资产的版本ID。表4 AnnotationConfig参数参数是否必选参数类型描述

 帮助中心 > AI开发平台ModelArts > SDK参考 > 数据管理 > 数据集管理
提交训练作业时，出现xxx isn't existed in train_version错误 - AI开发平台ModelArts

dit Training Configuration”，找到作业名称，单击右上角的减号并确认删除。图2 删除配置信息在弹出的确认对话框中，确认信息无误后，单击“是”删除对应配置信息。删除后您可以创建新的训练作业配置并提交训练作业。父主题： PyCharm Toolkit使用

 帮助中心 > AI开发平台ModelArts > 常见问题 > Standard Notebook > PyCharm Toolkit使用
用户自定义镜像自建的conda环境会查到一些额外的包，影响用户程序，如何解决？ - AI开发平台ModelArts

find /home/ma-user/anaconda3 -name modelarts.pth 执行如下命令删除用户使用的python环境中的modelarts.pth文件。 # /xxx/modelarts.pth 指用户通过第一步查出来的文件路径 rm -rf /xxx/modelarts

帮助中心 > AI开发平台ModelArts > 故障排除 > 开发环境 > 自定义镜像故障
日志提示“RuntimeError: connect() timed out” - AI开发平台ModelArts

distributed.barrier() 建议与总结在创建训练作业前，推荐您先使用ModelArts开发环境调试训练代码，避免代码迁移过程中的错误。直接使用线上notebook环境调试请参考使用JupyterLab开发模型。配置本地IDE（Pycharm或者VSCode）联接

 帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > GPU相关问题
删除训练作业 - AI开发平台ModelArts

String 训练作业的id，可通过创建训练作业生成的训练作业对象查询，如"job_instance.job_id"，或从查询训练作业列表的响应中获得。无成功响应参数。表2 调用训练接口失败响应参数参数类型描述 error_msg String 调用失败时的错误信息，调用成功时无此字段。

帮助中心 > AI开发平台ModelArts > SDK参考 > 训练管理 > 训练作业
场景介绍 - AI开发平台ModelArts
场景介绍 - AI开发平台ModelArts

本文档适配昇腾云ModelArts 6.3.910版本，请参考表1获取配套版本的软件包，请严格遵照版本配套关系使用本文档。本文档中的模型运行环境是ModelArts Lite Cluster。本文档中的CCE集群版本选择v1.27~1.28。版本使用的容器引擎为Containerd。镜像适配的Cann版本是cann_8

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU训练指导（6.3.910）
准备镜像 - AI开发平台ModelArts
准备镜像 - AI开发平台ModelArts

安装nerdctl工具。nerdctl是containerd的一个客户端命令行工具，使用方式和docker命令基本一致，可用于后续镜像构建步骤中。 # 下载 nerdctl 工具，注意使用的是1.7.6 arm64版本 wget https://github.com/containe

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.910） > 准备工作
场景介绍 - AI开发平台ModelArts
场景介绍 - AI开发平台ModelArts

本案例需要创建一个Notebook，以便能够通过它访问SFS Turbo服务。随后，通过Notebook将OBS中的数据上传至SFS Turbo，并对存储在SFS Turbo中的数据执行编辑操作。预训练预训练介绍如何进行预训练，包括训练数据处理、超参配置、创建训练任务及性能查看。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配PyTorch NPU训练指导（6.3.910）
场景介绍 - AI开发平台ModelArts
场景介绍 - AI开发平台ModelArts

本案例需要创建一个Notebook，以便能够通过它访问SFS Turbo服务。随后，通过Notebook将OBS中的数据上传至SFS Turbo，并对存储在SFS Turbo中的数据执行编辑操作。预训练预训练介绍如何进行预训练，包括训练数据处理、超参配置、创建训练任务及性能查看。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配PyTorch NPU训练指导（6.3.910）
训练作业进程被kill - AI开发平台ModelArts

以适当在解压大量文件时，加入sleep。比如每解压1w个文件，就停止1s。存储限制根据规格情况合理使用数据盘，数据盘大小请参考训练环境中不同规格资源大小。 CPU过载减少线程数。排查办法根据错误信息判断，报错原因来源于用户代码。您可以通过以下两种方式排查：线上环境调试代码（仅适用于非分布式代码）

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 业务代码问题
自动学习模型训练图片异常？ - AI开发平台ModelArts

使用自动学习的图像分类或物体检测算法时，标注完成的数据在进行模型训练后，训练结果为图片异常。针对不同的异常情况说明及解决方案参见表1。表1 自动学习训练中图片异常情况说明（图像分类和物体检测）序号图片异常显示字段图片异常说明解决方案字段解决方案说明 1 load failed 图片无法被解码且不能修复

 帮助中心 > AI开发平台ModelArts > 常见问题 > Standard自动学习 > 模型训练
推理性能测试 - AI开发平台ModelArts

静态benchmark验证本章节介绍如何进行静态benchmark验证。已经上传benchmark验证脚本到推理容器中。如果在Step3 制作推理镜像步骤中已经上传过AscendCloud-LLM-x.x.x.zip并解压，无需重复执行。执行如下命令进入容器。 kubectl

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.910）
推理性能测试 - AI开发平台ModelArts

静态benchmark验证本章节介绍如何进行静态benchmark验证。已经上传benchmark验证脚本到推理容器中。如果在Step3 制作推理镜像步骤中已经上传过AscendCloud-LLM-x.x.x.zip并解压，无需重复执行。执行如下命令进入容器。 kubectl

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.909）
日志提示“RuntimeError: Cannot re-initialize CUDA in forked subprocess” - AI开发平台ModelArts

processes: p.join() 建议与总结在创建训练作业前，推荐您先使用ModelArts开发环境调试训练代码，避免代码迁移过程中的错误。直接使用线上notebook环境调试请参考使用JupyterLab开发模型。配置本地IDE（Pycharm或者VSCode）联接

 帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > GPU相关问题
推理场景介绍 - AI开发平台ModelArts

推理部署使用的服务框架是vLLM。vLLM支持v0.4.2版本。支持FP16和BF16数据类型推理。 DevServer驱动版本要求23.0.5。资源规格要求本文档中的模型运行环境是ModelArts Lite的DevServer。推荐使用“西南-贵阳一”Region上的资源和Ascend Snt9B。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配PyTorch NPU推理指导（6.3.906）

总条数： 1754

上一页
1
...
81
82
83
...
88
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

准备Notebook - AI开发平台ModelArts

部署的在线服务状态为告警 - AI开发平台ModelArts

GPU裸金属服务器更换NVIDIA驱动后执行nvidia-smi提示Failed to initialize NVML - AI开发平台ModelArts

准备Notebook - AI开发平台ModelArts

使用moxing适配OBS路径，pandas读取文件报错 - AI开发平台ModelArts

创建数据集 - AI开发平台ModelArts

提交训练作业时，出现xxx isn't existed in train_version错误 - AI开发平台ModelArts

用户自定义镜像自建的conda环境会查到一些额外的包，影响用户程序，如何解决？ - AI开发平台ModelArts

日志提示“RuntimeError: connect() timed out” - AI开发平台ModelArts

删除训练作业 - AI开发平台ModelArts

场景介绍 - AI开发平台ModelArts

准备镜像 - AI开发平台ModelArts

场景介绍 - AI开发平台ModelArts

场景介绍 - AI开发平台ModelArts

训练作业进程被kill - AI开发平台ModelArts

自动学习模型训练图片异常？ - AI开发平台ModelArts

推理性能测试 - AI开发平台ModelArts

推理性能测试 - AI开发平台ModelArts

日志提示“RuntimeError: Cannot re-initialize CUDA in forked subprocess” - AI开发平台ModelArts

推理场景介绍 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线