搜索_华为云

编排Workflow - AI开发平台ModelArts

depend_steps=[job_step] ) # 服务部署 service_step = wf.steps.ServiceStep( name="service_step", title="服务部署", inputs=[wf.steps.Servic

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Workflow实现低代码AI开发 > 开发Workflow命令参考
GPU A系列裸金属服务器RoCE带宽不足如何解决？ - AI开发平台ModelArts

但是达不到预期，可能是nv_peer_mem异常。处理方法查看nv_peer_mem是否已安装。 dpkg -i | grep peer 如果未安装则需要安装，安装方法参考装机指导。如果已安装则进入下一检测项。查看该软件是否已经加载至内核。 lsmod | grep peer

帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Server
如何减小本地或ECS构建镜像的目的镜像的大小？ - AI开发平台ModelArts

ch环境或没有安装Cuda的镜像，而不是选择一个PyTorch引擎和Cuda都不满足的镜像，如MindSpore+Cuda11.X，这样基础镜像就会很大，同样的操作最终目的镜像就很大。此外下面举出几种常见的减少镜像大小的方式。减少目的镜像层数举例：假设需要安装两个pip包s

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard镜像相关
GPU A系列裸金属服务器如何更换NVIDIA和CUDA？ - AI开发平台ModelArts

peer-memory四个软件。但是如果nvidia和cuda是使用runfile(local)方式安装的，那么需要在下一步中再次卸载。若使用nvidia run包直接安装的驱动，需要找到对应的卸载命令。 sudo /usr/bin/nvidia-uninstall sudo

帮助中心 > AI开发平台ModelArts > 常见问题 > Lite Server
eagle投机小模型训练 - AI开发平台ModelArts

训练的小模型进行eagle推理。步骤一：安装Eagle Eagle训练适配代码存放在代码包AscendCloud-LLM-x.x.x.zip的llm_tools/spec_decode/EAGLE目录下。在目录下执行如下命令，即可安装 EAGLE。 bash build.sh

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.910）
eagle 投机小模型训练 - AI开发平台ModelArts

训练的小模型进行eagle推理。步骤一：安装Eagle Eagle训练适配代码存放在代码包AscendCloud-LLM-x.x.x.zip的llm_tools/spec_decode/EAGLE目录下。在目录下执行如下命令，即可安装 EAGLE。 bash build.sh

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.910）
自动学习训练作业失败 - AI开发平台ModelArts

BS桶，单击桶名称进入概览页。在左侧菜单栏选择“访问权限控制>桶ACLs”，检查当前账号是否具备读写权限，如果没有权限，请联系桶的拥有者配置权限。确保此OBS桶是非加密桶进入OBS管理控制台，选择当前自动学习项目使用的OBS桶，单击桶名称进入概览页。确保此OBS桶的加密功

 帮助中心 > AI开发平台ModelArts > 故障排除 > 自动学习 > 模型训练
场景介绍 - AI开发平台ModelArts
场景介绍 - AI开发平台ModelArts

型在ModelArts Lite Server上的微调方案，包括sft全参和lora 微调。本方案目前仅适用于部分企业客户，完成本方案的部署，需要先联系您所在企业的华为方技术支持。约束限制本文档适配昇腾云ModelArts 6.3.907版本，请参考表1获取配套版本的软件包，请严格遵照版本配套关系使用本文档。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.907）
GPU A系列裸金属服务器无法获取显卡如何解决 - AI开发平台ModelArts

可能系统资源不足、如内存不足、内存泄露。硬件故障、如IB网络或者GPU互联设备故障等。没安装nvidia-fabricmanager组件或被误卸载。处理方法如果未安装fabricmanager，则需安装改组件。如果已安装fabricmanager，运行以下命令重启fabricmanager.service。

帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Server
GPU A系列裸金属服务器使用CUDA cudaGetDeviceCount()提示CUDA initializat失败 - AI开发平台ModelArts

error from cudaGetDeviceCount() 原因分析经过对裸金属服务器排查，发现nvidia-drvier和cuda都已安装，并且正常运行。nvidia-fabricmanager服务可以使单节点GPU卡间互联，在多卡GPU机器上，出现这种问题可能是nvidia-fabricmanger异常导致。

帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Server
ModelArts入门实践 - AI开发平台ModelArts

面向熟悉代码编写和调测的AI工程师 ModelArts Standard推理部署使用Standard一键完成商超商品识别模型部署本案例以“商超商品识别”模型为例，介绍从AI Gallery订阅模型，一键部署到ModelArts Standard，并进行在线推理预测的体验过程。面向AI开发零基础的用户

 帮助中心 > AI开发平台ModelArts > 快速入门
如何保证自定义镜像能不因为超过35G而保存失败？ - AI开发平台ModelArts

-user/work以外的目录，请将数据集等放到work路径下，不要放到非work路径下。请不要将实例频繁保存镜像，建议一次将需要的安装包安装好，然后执行镜像保存，避免频繁执行镜像保存的动作，保存次数越多镜像越大，且多次保存后的镜像过大问题无法通过清理磁盘方式减少镜像的大小（Docker保存原理机制）。

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard镜像相关
如何查看ModelArts中正在收费的作业？ - AI开发平台ModelArts

low工作流、停止因运行Workflow工作流而创建的训练作业和部署的服务。同时，也需清理存储到OBS中的数据。自动学习：自动学习运行时会收取费用，使用完请及时停止自动学习、停止因运行自动学习而创建的训练作业和部署的服务。同时，也需清理存储到OBS中的数据。 Notebook实例：

帮助中心 > AI开发平台ModelArts > 计费说明 > 计费FAQ
无法导入模块 - AI开发平台ModelArts

训练作业导入模块时日志出现前两条报错信息，可能原因如下：代码如果在本地运行，需要将“project_dir”加入到PYTHONPATH或者将整个“project_dir”安装到“site-package”中才能运行。但是在ModelArts可以将“project_dir”加入到“sys.path”中解决该问题。

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 云上迁移适配故障
使用AWQ量化 - AI开发平台ModelArts

使用AWQ量化 AWQ(W4A16)量化方案能显著降低模型显存以及需要部署的卡数。降低小batch下的增量推理时延。支持AWQ量化的模型列表请参见表3。本章节介绍如何使用AWQ量化工具实现推理量化。量化方法：per-group Step1 模型量化可以在Huggingfac

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.906） > 推理模型量化
工作空间 - AI开发平台ModelArts
工作空间 - AI开发平台ModelArts

工作空间 ModelArts的用户需要为不同的业务目标开发算法、管理和部署模型，此时可以创建多个工作空间，把不同应用开发过程的输出内容划分到不同工作空间中，便于管理和使用。工作空间支持3种访问控制： PUBLIC：租户（主账号和所有子账号）内部公开访问。 PRIVATE：仅创建者和主账号可访问。

帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard权限管理 > 权限控制方式
使用AWQ量化工具转换权重 - AI开发平台ModelArts

使用AWQ量化工具转换权重 AWQ(W4A16/W8A16)量化方案能显著降低模型显存以及需要部署的卡数。降低小batch下的增量推理时延。支持AWQ量化的模型列表请参见表1。本章节介绍如何在Notebook使用AWQ量化工具实现推理量化。量化方法：W4A16 per-group/per-channel

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.908） > 推理模型量化
准备模型训练镜像 - AI开发平台ModelArts

准备模型训练镜像 ModelArts平台提供了Tensorflow，PyTorch，MindSpore等常用深度学习任务的基础镜像，镜像里已经安装好运行任务所需软件。当基础镜像里的软件无法满足您的程序运行需求时，您还可以基于这些基础镜像制作一个新的镜像并进行训练。训练作业的预置框架介绍

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型
训练专属预置镜像列表 - AI开发平台ModelArts

训练专属预置镜像列表 ModelArts平台提供了Tensorflow，PyTorch，MindSpore等常用深度学习任务的基础镜像，镜像里已经安装好运行任务所需软件。当基础镜像里的软件无法满足您的程序运行需求时，您可以基于这些基础镜像制作一个新的镜像并进行训练。训练基础镜像列表 M

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 制作自定义镜像用于ModelArts Standard > ModelArts支持的预置镜像列表
使用Advisor工具分析生成调优建议 - AI开发平台ModelArts

使用Advisor工具分析生成调优建议关于Advisor使用及安装过程请参见昇腾社区Gitee。最后生成导出的各类场景的建议包含以下两种： Terminal日志信息的概览建议。包含Detail信息及修改示例的HTML信息。按照建议信息做如下修改：亲和优化器使能，在train

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > Dit模型PyTorch迁移与精度性能调优 > 性能调优

总条数： 2120

上一页
1
...
99
100
101
...
106
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

编排Workflow - AI开发平台ModelArts

GPU A系列裸金属服务器RoCE带宽不足如何解决？ - AI开发平台ModelArts

如何减小本地或ECS构建镜像的目的镜像的大小？ - AI开发平台ModelArts

GPU A系列裸金属服务器如何更换NVIDIA和CUDA？ - AI开发平台ModelArts

eagle投机小模型训练 - AI开发平台ModelArts

eagle 投机小模型训练 - AI开发平台ModelArts

自动学习训练作业失败 - AI开发平台ModelArts

场景介绍 - AI开发平台ModelArts

GPU A系列裸金属服务器无法获取显卡如何解决 - AI开发平台ModelArts

GPU A系列裸金属服务器使用CUDA cudaGetDeviceCount()提示CUDA initializat失败 - AI开发平台ModelArts

ModelArts入门实践 - AI开发平台ModelArts

如何保证自定义镜像能不因为超过35G而保存失败？ - AI开发平台ModelArts

如何查看ModelArts中正在收费的作业？ - AI开发平台ModelArts

无法导入模块 - AI开发平台ModelArts

使用AWQ量化 - AI开发平台ModelArts

工作空间 - AI开发平台ModelArts

使用AWQ量化工具转换权重 - AI开发平台ModelArts

准备模型训练镜像 - AI开发平台ModelArts

训练专属预置镜像列表 - AI开发平台ModelArts

使用Advisor工具分析生成调优建议 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线