搜索_华为云

训练作业性能降低 - AI开发平台ModelArts

通过输入“nvidia-smi -q -d TEMPERATURE”命令，查看TEMP参数是否存在异常，如果温度过高，会导致训练性能下降。父主题：训练作业性能问题

 帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 训练作业性能问题
端到端运维ModelArts Standard推理服务方案 - AI开发平台ModelArts

图1 推理服务的端到端运维流程图整个运维过程会对服务请求失败和资源占用过高的场景进行监控，当超过阈值时发送告警通知。图2 监控告警流程图方案优势通过端到端的服务运维配置，可方便地查看业务运行高低峰情况，并能够实时感知在线服务的健康状态。

帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard推理部署
什么是区域、可用区？ - AI开发平台ModelArts

一个Region中的多个AZ间通过高速光纤相连，以满足用户跨AZ构建高可用性系统的需求。图1阐明了区域和可用区之间的关系。图1 区域和可用区目前，华为云已在全球多个地域开放云服务，您可以根据需求选择适合自己的区域和可用区。更多信息请参见华为云全球站点。如何选择区域？

帮助中心 > AI开发平台ModelArts > 常见问题 > 一般性问题
在推理生产环境中部署推理服务 - AI开发平台ModelArts

PYTORCH_NPU_ALLOC_CONF=expandable_segments:False；llava多卡启动时需要关闭虚拟内存扩展；开启时可能提升模型性能。允许分配器最初创建一个段，然后在以后需要更多内存时扩展它的大小。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.908）
内存不足如何处理？ - AI开发平台ModelArts

内存不足如何处理？问题现象在部署或升级在线服务时，如果部署或升级失败，并且在事件中出现如下类似提示。图1 内存不足提示样例1 运行中服务出现告警时，在事件中出现建议：内存不足，请增加内存。图2 内存不足提示样例2 原因分析部署或升级时出现该提示，可能原因是选择的计算节点规格内存太小

 帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 服务部署
在推理生产环境中部署推理服务 - AI开发平台ModelArts

PYTORCH_NPU_ALLOC_CONF=expandable_segments:False；llava多卡启动时需要关闭虚拟内存扩展；开启时可能提升模型性能。允许分配器最初创建一个段，然后在以后需要更多内存时扩展它的大小。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.909）
使用前必读 - AI开发平台ModelArts

一个Region中的多个AZ间通过高速光纤相连，以满足用户跨AZ构建高可用性系统的需求。项目区域默认对应一个项目，这个项目由系统预置，用来隔离物理区域间的资源（计算资源、存储资源和网络资源），以默认项目为单位进行授权，用户可以访问您账号中该区域的所有资源。

帮助中心 > AI开发平台ModelArts > API参考
自动模型优化介绍 - AI开发平台ModelArts

基于已搜索超参的评估值，通过高斯过程回归来估计其他搜索点处目标函数值的均值和方差。根据均值和方差构造采集函数（Acquisition Function），下一个搜索点为采集函数的极大值点。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 自动模型优化（AutoSearch）
Notebook提示磁盘空间已满 - AI开发平台ModelArts

Notebook提示磁盘空间已满问题现象在使用Notebook时，提示磁盘空间已满：No Space left on Device。在Notebook执行代码时，出现如下报错，提示：Disk quota exceeded。原因分析在JupyterLab浏览器左侧导航删除文件后

 帮助中心 > AI开发平台ModelArts > 故障排除 > 开发环境 > 环境配置故障
在Notebook调试环境中部署推理服务 - AI开发平台ModelArts

PYTORCH_NPU_ALLOC_CONF=expandable_segments:False；llava多卡启动时需要关闭虚拟内存扩展；开启时可能提升模型性能。允许分配器最初创建一个段，然后在以后需要更多内存时扩展它的大小。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.908）
使用PyCharm Toolkit插件连接Notebook - AI开发平台ModelArts

图1 Edit Credential 如果菜单栏中找不到“ModelArts > Edit Credential”，可能是PyCharm版本过高，PyCharm toolkit未适配2023.2之后版本的PyCharm工具。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Notebook进行AI开发调试 > 通过PyCharm远程使用Notebook实例
在Notebook调试环境中部署推理服务 - AI开发平台ModelArts

PYTORCH_NPU_ALLOC_CONF=expandable_segments:False；llava多卡启动时需要关闭虚拟内存扩展；开启时可能提升模型性能。允许分配器最初创建一个段，然后在以后需要更多内存时扩展它的大小。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.909）
增量模型训练 - AI开发平台ModelArts

资源限制：如果重新训练一个大型模型成本过高，增量训练可以是一个更经济的选择。避免灾难性遗忘：在传统训练中，新数据可能会覆盖旧数据的知识，导致模型忘记之前学到的内容。增量训练通过保留旧知识的同时学习新知识来避免这个问题。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型
附录：训练常见问题 - AI开发平台ModelArts

附录：训练常见问题问题1：在训练过程中遇到NPU out of memory 解决方法：容器内执行以下命令，指定NPU内存分配策略的环境变量，开启动态内存分配，即在需要时动态分配内存，可以提高内存利用率，减少OOM错误的发生。 export PYTORCH_NPU_ALLOC_CONF

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配LlamaFactory PyTorch NPU训练指导（6.3.910）
附录：微调训练常见问题 - AI开发平台ModelArts

附录：微调训练常见问题问题1：在训练过程中遇到NPU out of memory 解决方法：容器内执行以下命令，指定NPU内存分配策略的环境变量，开启动态内存分配，即在需要时动态分配内存，可以提高内存利用率，减少OOM错误的发生。 export PYTORCH_NPU_ALLOC_CONF

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配LlamaFactory PyTorch NPU训练指导（6.3.908）
附录：训练常见问题 - AI开发平台ModelArts

附录：训练常见问题问题1：在训练过程中遇到NPU out of memory 解决方法：容器内执行以下命令，指定NPU内存分配策略的环境变量，开启动态内存分配，即在需要时动态分配内存，可以提高内存利用率，减少OOM错误的发生。 export PYTORCH_NPU_ALLOC_CONF

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配LlamaFactory PyTorch NPU训练指导（6.3.909）
将Notebook的Conda环境迁移到SFS磁盘 - AI开发平台ModelArts

将Notebook的Conda环境迁移到SFS磁盘本文介绍了如何将Notebook的Conda环境迁移到SFS磁盘上。这样重启Notebook实例后，Conda环境不会丢失。步骤如下: 创建新的虚拟环境并保存到SFS目录克隆原有的虚拟环境到SFS盘重新启动镜像激活SFS盘中的虚拟环境

 帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard开发环境
使用CES监控Lite Server资源 - AI开发平台ModelArts

ff状态转硬件处理 NPU卡无法正常使用 NPU: lspci查询缺少设备 LspciCardNotFound 重要一般是由于NPU掉卡转硬件处理 NPU卡无法正常使用 NPU: 温度超过阈值 TemperatureOverUpperLimit 重要可能是由于DDR颗粒温度过高或过温软件预警

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Server） > Lite Server资源管理 > 监控Lite Server资源
非分离部署推理服务 - AI开发平台ModelArts

PYTORCH_NPU_ALLOC_CONF=expandable_segments:False；llava多卡启动时需要关闭虚拟内存扩展；开启时可能提升模型性能。允许分配器最初创建一个段，然后在以后需要更多内存时扩展它的大小。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配PyTorch NPU推理指导（6.3.908） > 部署推理服务
GPU A系列裸金属服务器无法获取显卡如何解决 - AI开发平台ModelArts

GPU A系列裸金属服务器无法获取显卡如何解决问题现象在A系列裸金属服务器上使用PyTorch一段时间后，出现获取显卡失败的现象，报错如下： > torch.cuda.is_available() /usr/local/lib/python3.8/dist-packages/torch

帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Server

总条数： 240

上一页
1
2
3
4
5
...
12
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

训练作业性能降低 - AI开发平台ModelArts

端到端运维ModelArts Standard推理服务方案 - AI开发平台ModelArts

什么是区域、可用区？ - AI开发平台ModelArts

在推理生产环境中部署推理服务 - AI开发平台ModelArts

内存不足如何处理？ - AI开发平台ModelArts

在推理生产环境中部署推理服务 - AI开发平台ModelArts

使用前必读 - AI开发平台ModelArts

自动模型优化介绍 - AI开发平台ModelArts

Notebook提示磁盘空间已满 - AI开发平台ModelArts

在Notebook调试环境中部署推理服务 - AI开发平台ModelArts

使用PyCharm Toolkit插件连接Notebook - AI开发平台ModelArts

在Notebook调试环境中部署推理服务 - AI开发平台ModelArts

增量模型训练 - AI开发平台ModelArts

附录：训练常见问题 - AI开发平台ModelArts

附录：微调训练常见问题 - AI开发平台ModelArts

附录：训练常见问题 - AI开发平台ModelArts

将Notebook的Conda环境迁移到SFS磁盘 - AI开发平台ModelArts

使用CES监控Lite Server资源 - AI开发平台ModelArts

非分离部署推理服务 - AI开发平台ModelArts

GPU A系列裸金属服务器无法获取显卡如何解决 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线