搜索_华为云

GPU A系列裸金属服务器使用CUDA cudaGetDeviceCount()提示CUDA initializat失败 - AI开发平台ModelArts

error from cudaGetDeviceCount() 原因分析经过对裸金属服务器排查，发现nvidia-drvier和cuda都已安装，并且正常运行。nvidia-fabricmanager服务可以使单节点GPU卡间互联，在多卡GPU机器上，出现这种问题可能是nvidia-fabricmanger异常导致。

帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Server
场景介绍 - AI开发平台ModelArts
场景介绍 - AI开发平台ModelArts

型在ModelArts Lite Server上的微调方案，包括sft全参和lora 微调。本方案目前仅适用于部分企业客户，完成本方案的部署，需要先联系您所在企业的华为方技术支持。约束限制本文档适配昇腾云ModelArts 6.3.907版本，请参考表1获取配套版本的软件包，请严格遵照版本配套关系使用本文档。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.907）
GPU A系列裸金属服务器无法获取显卡如何解决 - AI开发平台ModelArts

可能系统资源不足、如内存不足、内存泄露。硬件故障、如IB网络或者GPU互联设备故障等。没安装nvidia-fabricmanager组件或被误卸载。处理方法如果未安装fabricmanager，则需安装改组件。如果已安装fabricmanager，运行以下命令重启fabricmanager.service。

帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Server
获取账号名和账号ID - AI开发平台ModelArts

获取账号名和账号ID 在调用接口的时候，部分请求中需要填入账号名（domain name）和账号ID（domain_id）。获取步骤如下：注册并登录管理控制台。鼠标移动至用户名，在下拉列表中单击“我的凭证”。在“API凭证”页面的查看“账号名”和“账号ID”。图1 获取账号名和ID

帮助中心 > AI开发平台ModelArts > API参考 > 公共参数
编排Workflow - AI开发平台ModelArts

填写新的模型名称，后续运行会自动在该模型上新增版本") # 模型注册 model_step = wf.steps.ModelStep( name="model_step", title="模型注册", inputs=[wf.steps.ModelInpu

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Workflow实现低代码AI开发 > 开发Workflow命令参考
如何保证自定义镜像能不因为超过35G而保存失败？ - AI开发平台ModelArts

-user/work以外的目录，请将数据集等放到work路径下，不要放到非work路径下。请不要将实例频繁保存镜像，建议一次将需要的安装包安装好，然后执行镜像保存，避免频繁执行镜像保存的动作，保存次数越多镜像越大，且多次保存后的镜像过大问题无法通过清理磁盘方式减少镜像的大小（Docker保存原理机制）。

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard镜像相关
ModelArts入门实践 - AI开发平台ModelArts

面向熟悉代码编写和调测的AI工程师 ModelArts Standard推理部署使用Standard一键完成商超商品识别模型部署本案例以“商超商品识别”模型为例，介绍从AI Gallery订阅模型，一键部署到ModelArts Standard，并进行在线推理预测的体验过程。面向AI开发零基础的用户

 帮助中心 > AI开发平台ModelArts > 快速入门
如何查看ModelArts中正在收费的作业？ - AI开发平台ModelArts

low工作流、停止因运行Workflow工作流而创建的训练作业和部署的服务。同时，也需清理存储到OBS中的数据。自动学习：自动学习运行时会收取费用，使用完请及时停止自动学习、停止因运行自动学习而创建的训练作业和部署的服务。同时，也需清理存储到OBS中的数据。 Notebook实例：

帮助中心 > AI开发平台ModelArts > 计费说明 > 计费FAQ
主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.906） - AI开发平台ModelArts

主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.906）场景介绍准备工作在Notebook调试环境中部署推理服务在推理生产环境中部署推理服务推理精度测试推理性能测试推理模型量化父主题： LLM大语言模型训练推理

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理
主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.910） - AI开发平台ModelArts

主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.910）场景介绍准备工作在Notebook调试环境中部署推理服务在推理生产环境中部署推理服务推理精度测试推理性能测试推理模型量化 eagle 投机小模型训练附录：基于vLLM不同模型推理支持最小卡数和最大序列说明

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理
不在同一个主账号下，如何使用他人的自定义镜像创建Notebook？ - AI开发平台ModelArts

按照“Pull/Push指南”页签提供的操作方法，将用户B共享的镜像Pull下来，即作为自有镜像。进入ModelArts控制台，选择Pull下来的镜像进行镜像注册，注册成功后即可在Notebook界面使用此镜像。父主题： Standard镜像相关

 帮助中心 > AI开发平台ModelArts > 常见问题 > Standard镜像相关
使用AWQ量化 - AI开发平台ModelArts

使用AWQ量化 AWQ(W4A16)量化方案能显著降低模型显存以及需要部署的卡数。降低小batch下的增量推理时延。支持AWQ量化的模型列表请参见表3。本章节介绍如何使用AWQ量化工具实现推理量化。量化方法：per-group Step1 模型量化可以在Huggingfac

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.906） > 推理模型量化
工作空间 - AI开发平台ModelArts
工作空间 - AI开发平台ModelArts

工作空间 ModelArts的用户需要为不同的业务目标开发算法、管理和部署模型，此时可以创建多个工作空间，把不同应用开发过程的输出内容划分到不同工作空间中，便于管理和使用。工作空间支持3种访问控制： PUBLIC：租户（主账号和所有子账号）内部公开访问。 PRIVATE：仅创建者和主账号可访问。

帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard权限管理 > 权限控制方式
使用AWQ量化工具转换权重 - AI开发平台ModelArts

使用AWQ量化工具转换权重 AWQ(W4A16/W8A16)量化方案能显著降低模型显存以及需要部署的卡数。降低小batch下的增量推理时延。支持AWQ量化的模型列表请参见表1。本章节介绍如何在Notebook使用AWQ量化工具实现推理量化。量化方法：W4A16 per-group/per-channel

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.908） > 推理模型量化
准备模型训练镜像 - AI开发平台ModelArts

准备模型训练镜像 ModelArts平台提供了Tensorflow，PyTorch，MindSpore等常用深度学习任务的基础镜像，镜像里已经安装好运行任务所需软件。当基础镜像里的软件无法满足您的程序运行需求时，您还可以基于这些基础镜像制作一个新的镜像并进行训练。训练作业的预置框架介绍

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型
训练专属预置镜像列表 - AI开发平台ModelArts

训练专属预置镜像列表 ModelArts平台提供了Tensorflow，PyTorch，MindSpore等常用深度学习任务的基础镜像，镜像里已经安装好运行任务所需软件。当基础镜像里的软件无法满足您的程序运行需求时，您可以基于这些基础镜像制作一个新的镜像并进行训练。训练基础镜像列表 M

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 制作自定义镜像用于ModelArts Standard > ModelArts支持的预置镜像列表
使用Advisor工具分析生成调优建议 - AI开发平台ModelArts

使用Advisor工具分析生成调优建议关于Advisor使用及安装过程请参见昇腾社区Gitee。最后生成导出的各类场景的建议包含以下两种： Terminal日志信息的概览建议。包含Detail信息及修改示例的HTML信息。按照建议信息做如下修改：亲和优化器使能，在train

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > Dit模型PyTorch迁移与精度性能调优 > 性能调优
创建Notebook失败，查看事件显示JupyterProcessKilled - AI开发平台ModelArts

是自定义镜像的问题。解决方案排查是否是自定义镜像的问题。自定义镜像构建完成，在ModelArts镜像管理注册时，“架构”和“类型”需要和源镜像保持一致。图2 注册镜像父主题：实例故障

 帮助中心 > AI开发平台ModelArts > 故障排除 > 开发环境 > 实例故障
无法导入模块 - AI开发平台ModelArts

训练作业导入模块时日志出现前两条报错信息，可能原因如下：代码如果在本地运行，需要将“project_dir”加入到PYTHONPATH或者将整个“project_dir”安装到“site-package”中才能运行。但是在ModelArts可以将“project_dir”加入到“sys.path”中解决该问题。

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 云上迁移适配故障
使用Msprobe工具分析偏差 - AI开发平台ModelArts

观察上一章Loss趋势，在首个Step有较小偏差，所以对第一个Step进行比对分析。此处使用Msprobe的整网Dump和比对分析功能。首先安装社区Msprobe工具，命令如下： pip install mindstudio-probe 使能工具进行数据Dump分析。本实验可在train

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > Dit模型PyTorch迁移与精度性能调优 > 精度对齐

总条数： 1564

上一页
1
...
67
68
69
...
79
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

GPU A系列裸金属服务器使用CUDA cudaGetDeviceCount()提示CUDA initializat失败 - AI开发平台ModelArts

场景介绍 - AI开发平台ModelArts

GPU A系列裸金属服务器无法获取显卡如何解决 - AI开发平台ModelArts

获取账号名和账号ID - AI开发平台ModelArts

编排Workflow - AI开发平台ModelArts

如何保证自定义镜像能不因为超过35G而保存失败？ - AI开发平台ModelArts

ModelArts入门实践 - AI开发平台ModelArts

如何查看ModelArts中正在收费的作业？ - AI开发平台ModelArts

主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.906） - AI开发平台ModelArts

主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.910） - AI开发平台ModelArts

不在同一个主账号下，如何使用他人的自定义镜像创建Notebook？ - AI开发平台ModelArts

使用AWQ量化 - AI开发平台ModelArts

工作空间 - AI开发平台ModelArts

使用AWQ量化工具转换权重 - AI开发平台ModelArts

准备模型训练镜像 - AI开发平台ModelArts

训练专属预置镜像列表 - AI开发平台ModelArts

使用Advisor工具分析生成调优建议 - AI开发平台ModelArts

创建Notebook失败，查看事件显示JupyterProcessKilled - AI开发平台ModelArts

无法导入模块 - AI开发平台ModelArts

使用Msprobe工具分析偏差 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线