搜索_华为云

GP Vnt1裸金属服务器用PyTorch报错CUDA initialization:CUDA unknown error - AI开发平台ModelArts

及其相关的内核模块。在Linux系统上安装NVIDIA显卡驱动后，需要通过“nvidia-modprobe”命令来加载相应的内核模块，以便让显卡驱动正常工作。通常情况下，在安装NVIDIA驱动时，会自动执行“nvidia-modprobe”命令，将必要的内核模块加载到系统中。但

 帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Server
创建生产训练作业（新版页面） - AI开发平台ModelArts

列的易用性改进。现推出新版页面，旨在简化操作流程并增强界面的直观性。模型训练是一个不断迭代和优化模型权重的过程。ModelArts的训练模块支持创建训练作业，通过模型训练试验模型结构、数据和超参的各种组合，便于找到最佳的模型结构和权重。创建生产环境的训练作业有2种方式：通过ModelArts

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型
使用CES监控Lite Server资源 - AI开发平台ModelArts

instance_id，npu 51 RoCE光模块 npu_opt_temperature NPU光模块壳温该指标描述NPU光模块壳温 °C 自然数 instance_id，npu Snt9B Snt9C 52 npu_opt_temperature_high_thres NPU光模块壳温上限该指标描述NPU光模块壳温上限

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Server） > Lite Server资源管理 > 监控Lite Server资源
AI Gallery简介 - AI开发平台ModelArts

Gallery的数据模块支持数据集的共享和下载。在AI Gallery的“数据”中，可以查找并下载满足业务需要的数据集。也可以将自己本地的数据集发布至AI Gallery中，共享给其他用户使用。 “资产集市 > 算法”：共享了算法。 AI Gallery的算法模块支持算法的共享和订阅。在AI

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（AI Gallery） > AI Gallery（旧版）
迁移过程使用工具概览 - AI开发平台ModelArts

AKG由三个基本的优化模块组成：规范化、自动调度和后端优化。规范化：为了解决polyhedral表达能力的局限性（只能处理静态的线性程序），需要首先对计算公式IR进行规范化。规范化模块中的优化主要包括自动运算符inline、自动循环融合和公共子表达式优化等。自动调度：自动调度模块基于po

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > GPU推理业务迁移至昇腾的通用指导
在ModelArts Standard上运行GPU单机多卡训练作业 - AI开发平台ModelArts

在SFS中将文件设置归属为ma-user。 chown -R ma-user:ma-group YOLOX 执行以下命令，去除Shell脚本的\r字符。 cd YOLOX sed -i 's/\r//' run.sh Shell脚本在Windows系统编写时，每行结尾是\r\n，而在Linux系统中行每行结尾是\n，

帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard模型训练 > 基于ModelArts Standard运行GPU训练作业
开发用于自定义镜像训练的代码 - AI开发平台ModelArts

行，否则训练作业可能会运行异常。在完全使用自定义镜像创建训练作业时，通过指定的“conda env”启动训练。由于训练作业运行时不是shell环境，因此无法直接使用“conda activate”命令激活指定的 “conda env”，需要使用其他方式以达成使用指定“conda

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 准备模型训练代码
准备代码 - AI开发平台ModelArts
准备代码 - AI开发平台ModelArts

er # 昇腾量化使用的算子模块 ├── autosmoothquant # 量化代码 ├── build.sh # 安装量化模块的脚本 ├──AutoAWQ

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.909） > 准备工作
准备代码 - AI开发平台ModelArts
准备代码 - AI开发平台ModelArts

er # 昇腾量化使用的算子模块 ├── autosmoothquant # 量化代码 ├── build.sh # 安装量化模块的脚本 ├──AutoAWQ

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.908） > 准备工作
准备代码 - AI开发平台ModelArts
准备代码 - AI开发平台ModelArts

er # 昇腾量化使用的算子模块 ├── autosmoothquant # 量化代码 ├── build.sh # 安装量化模块的脚本 ├──AutoAWQ

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.910） > 准备工作
准备代码 - AI开发平台ModelArts
准备代码 - AI开发平台ModelArts

er # 昇腾量化使用的算子模块 ├── autosmoothquant # 量化代码 ├── build.sh # 安装量化模块的脚本 ├──AutoAWQ

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.907） > 准备工作
准备代码 - AI开发平台ModelArts
准备代码 - AI开发平台ModelArts

er # 昇腾量化使用的算子模块 ├── autosmoothquant # 量化代码 ├── build.sh # 安装量化模块的脚本 ├──AutoAWQ

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.909） > 准备工作
准备代码 - AI开发平台ModelArts
准备代码 - AI开发平台ModelArts

er # 昇腾量化使用的算子模块 ├── autosmoothquant # 量化代码 ├── build.sh # 安装量化模块的脚本 ├──AutoAWQ

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.911） > 准备工作
更新管理 - AI开发平台ModelArts
更新管理 - AI开发平台ModelArts

推理服务升级流程推理服务更新升级的具体操作请参见升级服务。镜像更新升级 ModelArts包含开发环境、训练管理、推理部署三个功能模块，三个模块采用统一的流程提供基础镜像。这些镜像会不定期更新升级，修复已知漏洞。父主题：安全

 帮助中心 > AI开发平台ModelArts > 产品介绍 > 安全
场景介绍 - AI开发平台ModelArts
场景介绍 - AI开发平台ModelArts

所有源代码都被直接复制粘贴到同一个文件中，而不是调用某些抽象提取出的模块化库。Diffusers的这种设计原则的好处是代码简单易用、对代码贡献者友好。然而，这种反软件结构化的设计也有明显的缺点。由于缺乏统一的模块化库，对于昇腾适配而言变得更加复杂，必须针对每个不同业务的Pipeline进行单独适配。

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > 基于AIGC模型的GPU推理业务迁移至昇腾指导
准备代码 - AI开发平台ModelArts
准备代码 - AI开发平台ModelArts

er # 昇腾量化使用的算子模块 ├── autosmoothquant # 量化代码 ├── build.sh # 安装量化模块的脚本 ├──AutoAWQ

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.911） > 准备工作
准备代码 - AI开发平台ModelArts
准备代码 - AI开发平台ModelArts

er # 昇腾量化使用的算子模块 ├── autosmoothquant # 量化代码 ├── build.sh # 安装量化模块的脚本 ├──AutoAWQ

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.910） > 准备工作
约束与限制 - AI开发平台ModelArts

下，默认要求填写作业日志在OBS的存放路径，其他资源的训练场景下，永久保存日志开关需要用户手动开启。仅专属资源池支持使用Cloud Shell登录训练容器，且训练作业必须处于“运行中”状态。在训练管理的“创建算法”页面，来源于AI Gallery中订阅的算法不支持另存为新算法。

帮助中心 > AI开发平台ModelArts > 产品介绍
版本说明和要求 - AI开发平台ModelArts

er # 昇腾量化使用的算子模块 ├── autosmoothquant_ascend # 量化代码 ├── build.sh # 安装量化模块的脚本 ├──AutoAWQ

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配Ascend-vLLM PyTorch NPU推理指导（6.3.912）
multi-lora - AI开发平台ModelArts
multi-lora - AI开发平台ModelArts

省NPU内存并提高推理速度。轻量化适配：无需改变原始模型结构，通过低秩矩阵的调整即可适配不同任务。多任务并行：支持同时加载多个LoRA模块，使得VLLM可以在不同任务间快速切换，提高多任务推理的效率。约束限制 multi-lora特性不能和Chunked Prefill特性一起使用。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配Ascend-vLLM PyTorch NPU推理指导（6.5.901） > 推理关键特性使用

总条数： 202

上一页
1
2
3
4
5
...
11
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

GP Vnt1裸金属服务器用PyTorch报错CUDA initialization:CUDA unknown error - AI开发平台ModelArts

创建生产训练作业（新版页面） - AI开发平台ModelArts

使用CES监控Lite Server资源 - AI开发平台ModelArts

AI Gallery简介 - AI开发平台ModelArts

迁移过程使用工具概览 - AI开发平台ModelArts

在ModelArts Standard上运行GPU单机多卡训练作业 - AI开发平台ModelArts

开发用于自定义镜像训练的代码 - AI开发平台ModelArts

准备代码 - AI开发平台ModelArts

准备代码 - AI开发平台ModelArts

准备代码 - AI开发平台ModelArts

准备代码 - AI开发平台ModelArts

准备代码 - AI开发平台ModelArts

准备代码 - AI开发平台ModelArts

更新管理 - AI开发平台ModelArts

场景介绍 - AI开发平台ModelArts

准备代码 - AI开发平台ModelArts

准备代码 - AI开发平台ModelArts

约束与限制 - AI开发平台ModelArts

版本说明和要求 - AI开发平台ModelArts

multi-lora - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线