搜索_华为云

GPU裸金属服务器更换NVIDIA驱动后执行nvidia-smi提示Failed to initialize NVML - AI开发平台ModelArts

GPU裸金属服务器更换NVIDIA驱动后执行nvidia-smi提示Failed to initialize NVML 问题现象华为云裸金属服务器，NVIDIA驱动卸载后重新安装。（1）已卸载原有版本NVIDIA驱动和CUDA版本，且已安装新版本的NVIDIA驱动和CUDA版本

 帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Server
场景介绍 - AI开发平台ModelArts
场景介绍 - AI开发平台ModelArts

场景介绍方案概览本文档利用训练框架LlamaFactory+华为自研Ascend Snt9B硬件，为用户提供了常见主流开源大模型在ModelArts Lite Server上的微调方案，包括SFT全参微调、LoRA微调、DPO训练方案。 DPO(Direct Preference

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.908）
场景介绍 - AI开发平台ModelArts
场景介绍 - AI开发平台ModelArts

场景介绍方案概览本文档利用训练框架LlamaFactory+华为自研Ascend Snt9B硬件，为用户提供了常见主流开源大模型在ModelArts Lite Server上的不同训练阶段方案，包括指令监督微调、DPO偏好训练、RM奖励模型训练、PPO强化训练方案。 DPO(Direct

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.909）
场景介绍 - AI开发平台ModelArts
场景介绍 - AI开发平台ModelArts

场景介绍方案概览本文档利用训练框架LlamaFactory+华为自研Ascend Snt9B硬件，为用户提供了常见主流开源大模型在ModelArts Lite Server上的不同训练阶段方案，包括指令监督微调、DPO偏好训练、RM奖励模型训练、PPO强化训练方案。 DPO(Direct

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.912）
用户执行huaweicloud.com相关API超时 - AI开发平台ModelArts

用户执行huaweicloud.com相关API超时问题现象用户在Notebook里通过request请求接口时超时：GET pangu-xxx.cn-southwest-2.myhuaweicloud.com。原因分析在Notebook中访问公网需要通过代理，访问huawei

帮助中心 > AI开发平台ModelArts > 故障排除 > API/SDK
在ModelArts的Notebook中，如何访问其他账号的OBS桶？ - AI开发平台ModelArts

限。首先，请联系OBS桶的创建者，参考对其他账号授予桶的读写权限指导，授予当前账号OBS桶的读写权限。此操作指导是某一华为云账号将其OBS桶权限授予其他华为云账号。如果您的账号是IAM用户或其他场景时，请参见《OBS权限配置指南》> 典型场景配置案例，查找授予OBS桶权限的指导。

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard Notebook
场景介绍 - AI开发平台ModelArts
场景介绍 - AI开发平台ModelArts

场景介绍方案概览本文档利用训练框架LlamaFactory+华为自研Ascend Snt9B硬件，为用户提供了常见主流开源大模型在ModelArts Lite Server上的不同训练阶段方案，包括指令监督微调、DPO偏好训练、RM奖励模型训练、PPO强化训练方案。 DPO(Direct

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.910）
MoXing Framework功能介绍 - AI开发平台ModelArts

MoXing Framework功能介绍 MoXing Framework模块为MoXing提供基础公共组件，例如访问华为云的OBS服务，和具体的AI引擎解耦，在ModelArts支持的所有AI引擎(TensorFlow、MXNet、PyTorch、MindSpore等)下均可以使用。目前，提供的MoXing

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Notebook进行AI开发调试 > 在Notebook中使用Moxing命令
场景介绍 - AI开发平台ModelArts
场景介绍 - AI开发平台ModelArts

场景介绍方案概览本文档利用训练框架LlamaFactory+华为自研Ascend Snt9B硬件，为用户提供了常见主流开源大模型在ModelArts Lite DevServer上的不同训练阶段方案，包括指令监督微调、DPO偏好训练、RM奖励模型训练、PPO强化训练方案。 DPO(Direct

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.5.901）
使用Notebook代码样例 - AI开发平台ModelArts

使用Notebook代码样例在AI Gallery中，您可以查找并直接打开使用Notebook实例。前提条件注册并登录华为云，详细操作请参见准备工作。打开Notebook实例登录“AI Gallery”。选择“资产集市 > Notebook”，进入Notebook页面

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（AI Gallery） > AI Gallery（旧版） > 订阅使用
从0制作自定义镜像用于创建训练作业（Pytorch+Ascend） - AI开发平台ModelArts

huaweicloud.com timeout = 120 在华为开源镜像站中，搜索pypi，可以查看pip.conf文件内容。准备可用的apt源文件Ubuntu-Ports-bionic.list。本示例使用华为开源镜像站提供的apt源，执行如下命令获取apt源文件。 wget

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 制作自定义镜像用于ModelArts Standard > 制作自定义镜像用于训练模型
镜像保存时报错“BuildImage,True,Commit successfully|PushImage,False,Task is running.” - AI开发平台ModelArts

successfully|PushImage,False,Task is running. 可能原因镜像过大Push任务一直在运行，或实例节点有问题。解决方法以对应租户的华为云账号登录SWR服务，查看镜像是否已经Push成功。如果Push成功，请重新注册镜像。如果未Push成功，联系SRE查看对应实例的节点是否有问题。

帮助中心 > AI开发平台ModelArts > 故障排除 > 开发环境 > 自定义镜像故障
场景介绍 - AI开发平台ModelArts
场景介绍 - AI开发平台ModelArts

架Pytorch_npu+华为自研Ascend Snt9b硬件，为用户提供了开箱即用的预训练和全量微调方案。本方案目前配套的是AscendCloud-3rdLLM-6.3.T041版本，仅适用于部分企业客户，完成本方案的部署，需要先联系您所在企业的华为方技术支持。操作流程图1

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > GLM3-6B模型基于DevServer适配PyTorch NPU训练指导（6.3.904）
订阅Workflow - AI开发平台ModelArts

述”、“交付”、“版本”、“限制”和“评论”等信息。在详情页面单击“订阅”。如果订阅的是非华为云官方资产，则会弹出“温馨提示”页面，勾选并阅读《数据安全与隐私风险承担条款》和《华为云AI Gallery服务协议》后，单击“继续订阅”才能继续进行模型订阅。 Workflow被订

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（AI Gallery） > AI Gallery（旧版） > 订阅使用
模型适配 - AI开发平台ModelArts
模型适配 - AI开发平台ModelArts

模型适配 MindSpore Lite是华为自研的推理引擎，能够最大化地利用昇腾芯片的性能。在使用MindSpore Lite进行离线推理时，需要先将模型转换为mindir模型，再利用MindSpore Lite作为推理引擎，将转换后的模型直接运行在昇腾设备上。模型转换需要使用converter_lite工具。

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > 基于AIGC模型的GPU推理业务迁移至昇腾指导 > 应用迁移
Open-Sora 1.0基于Lite Server适配PyTorch NPU训练指导（6.3.905） - AI开发平台ModelArts

Server适配PyTorch NPU训练指导（6.3.905）本文档主要介绍如何在ModelArts Lite Server上，使用PyTorch_npu+华为自研Ascend Snt9B硬件，完成Open-Sora训练和推理。资源规格要求推荐使用“西南-贵阳一”Region上的Lite Server资源和Ascend

帮助中心 > AI开发平台ModelArts > 最佳实践 > 文生视频模型训练推理
注册API并授权给APP - AI开发平台ModelArts

注册API并授权给APP 功能介绍注册API并将API授权给APP，只有对服务有更新权限的华为云用户可以调用。调试您可以在API Explorer中调试该接口，支持自动认证鉴权。API Explorer可以自动生成SDK代码示例，并提供SDK代码示例调试功能。 URI POST

帮助中心 > AI开发平台ModelArts > API参考 > APP认证管理
订阅免费模型 - AI开发平台ModelArts

署，管理控制台将根据实际使用情况收取硬件资源的费用。前提条件注册并登录华为云，且创建好OBS桶用于存储数据和模型。如果是订阅使用HiLens技能，则需要获取相关服务权限，详细操作请参见准备工作（华为HiLens）。订阅免费模型登录“AI Gallery”。选择“资产集市

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（AI Gallery） > AI Gallery（旧版） > 订阅使用
ECS获取和上传基础镜像 - AI开发平台ModelArts

在SWR服务页面创建镜像组织。图1 创建镜像组织 Step2 登录ECS服务器根据创建ECS服务器创建完成ECS服务器后，单击“远程登录”，可使用华为CloudShell远程登录如图所示。后续安装Docker、获取镜像、构建镜像等操作均在该ECS上进行。图2 CloudShell远程登录界面

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配ModelLink PyTorch NPU训练指导（6.3.909） > 准备工作 > 准备镜像
使用GPU A系列裸金属服务器有哪些注意事项？ - AI开发平台ModelArts

使用GPU A系列裸金属服务器有哪些注意事项？使用华为云A系列裸金属服务器时有如下注意事项： nvidia-fabricmanager版本号必须和nvidia-driver版本号保持一致，可参考安装nvidia-fabricmanager方法。 NCCL必须和CUDA版本相匹配，可单击此处可查看配套关系和安装方法。

帮助中心 > AI开发平台ModelArts > 常见问题 > Lite Server

总条数： 936

上一页
1
...
32
33
34
...
47
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

GPU裸金属服务器更换NVIDIA驱动后执行nvidia-smi提示Failed to initialize NVML - AI开发平台ModelArts

场景介绍 - AI开发平台ModelArts

场景介绍 - AI开发平台ModelArts

场景介绍 - AI开发平台ModelArts

用户执行huaweicloud.com相关API超时 - AI开发平台ModelArts

在ModelArts的Notebook中，如何访问其他账号的OBS桶？ - AI开发平台ModelArts

场景介绍 - AI开发平台ModelArts

MoXing Framework功能介绍 - AI开发平台ModelArts

场景介绍 - AI开发平台ModelArts

使用Notebook代码样例 - AI开发平台ModelArts

从0制作自定义镜像用于创建训练作业（Pytorch+Ascend） - AI开发平台ModelArts

镜像保存时报错“BuildImage,True,Commit successfully|PushImage,False,Task is running.” - AI开发平台ModelArts

场景介绍 - AI开发平台ModelArts

订阅Workflow - AI开发平台ModelArts

模型适配 - AI开发平台ModelArts

Open-Sora 1.0基于Lite Server适配PyTorch NPU训练指导（6.3.905） - AI开发平台ModelArts

注册API并授权给APP - AI开发平台ModelArts

订阅免费模型 - AI开发平台ModelArts

ECS获取和上传基础镜像 - AI开发平台ModelArts

使用GPU A系列裸金属服务器有哪些注意事项？ - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线