检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
通过输入“nvidia-smi -q -d TEMPERATURE”命令, 查看TEMP参数是否存在异常, 如果温度过高,会导致训练性能下降。 父主题: 训练作业性能问题
图1 推理服务的端到端运维流程图 整个运维过程会对服务请求失败和资源占用过高的场景进行监控,当超过阈值时发送告警通知。 图2 监控告警流程图 方案优势 通过端到端的服务运维配置,可方便地查看业务运行高低峰情况,并能够实时感知在线服务的健康状态。
一个Region中的多个AZ间通过高速光纤相连,以满足用户跨AZ构建高可用性系统的需求。 图1阐明了区域和可用区之间的关系。 图1 区域和可用区 目前,华为云已在全球多个地域开放云服务,您可以根据需求选择适合自己的区域和可用区。更多信息请参见华为云全球站点。 如何选择区域?
PYTORCH_NPU_ALLOC_CONF=expandable_segments:False;llava多卡启动时需要关闭虚拟内存扩展;开启时可能提升模型性能。允许分配器最初创建一个段,然后在以后需要更多内存时扩展它的大小。
内存不足如何处理? 问题现象 在部署或升级在线服务时,如果部署或升级失败,并且在事件中出现如下类似提示。 图1 内存不足提示样例1 运行中服务出现告警时,在事件中出现建议:内存不足,请增加内存。 图2 内存不足提示样例2 原因分析 部署或升级时出现该提示,可能原因是选择的计算节点规格内存太小
PYTORCH_NPU_ALLOC_CONF=expandable_segments:False;llava多卡启动时需要关闭虚拟内存扩展;开启时可能提升模型性能。允许分配器最初创建一个段,然后在以后需要更多内存时扩展它的大小。
一个Region中的多个AZ间通过高速光纤相连,以满足用户跨AZ构建高可用性系统的需求。 项目 区域默认对应一个项目,这个项目由系统预置,用来隔离物理区域间的资源(计算资源、存储资源和网络资源),以默认项目为单位进行授权,用户可以访问您账号中该区域的所有资源。
基于已搜索超参的评估值,通过高斯过程回归来估计其他搜索点处目标函数值的均值和方差。根据均值和方差构造采集函数(Acquisition Function),下一个搜索点为采集函数的极大值点。
Notebook提示磁盘空间已满 问题现象 在使用Notebook时,提示磁盘空间已满:No Space left on Device。 在Notebook执行代码时,出现如下报错,提示:Disk quota exceeded。 原因分析 在JupyterLab浏览器左侧导航删除文件后
PYTORCH_NPU_ALLOC_CONF=expandable_segments:False;llava多卡启动时需要关闭虚拟内存扩展;开启时可能提升模型性能。允许分配器最初创建一个段,然后在以后需要更多内存时扩展它的大小。
图1 Edit Credential 如果菜单栏中找不到“ModelArts > Edit Credential”,可能是PyCharm版本过高,PyCharm toolkit未适配2023.2之后版本的PyCharm工具。
PYTORCH_NPU_ALLOC_CONF=expandable_segments:False;llava多卡启动时需要关闭虚拟内存扩展;开启时可能提升模型性能。允许分配器最初创建一个段,然后在以后需要更多内存时扩展它的大小。
资源限制:如果重新训练一个大型模型成本过高,增量训练可以是一个更经济的选择。 避免灾难性遗忘:在传统训练中,新数据可能会覆盖旧数据的知识,导致模型忘记之前学到的内容。增量训练通过保留旧知识的同时学习新知识来避免这个问题。
附录:训练常见问题 问题1:在训练过程中遇到NPU out of memory 解决方法: 容器内执行以下命令,指定NPU内存分配策略的环境变量,开启动态内存分配,即在需要时动态分配内存,可以提高内存利用率,减少OOM错误的发生。 export PYTORCH_NPU_ALLOC_CONF
附录:微调训练常见问题 问题1:在训练过程中遇到NPU out of memory 解决方法: 容器内执行以下命令,指定NPU内存分配策略的环境变量,开启动态内存分配,即在需要时动态分配内存,可以提高内存利用率,减少OOM错误的发生。 export PYTORCH_NPU_ALLOC_CONF
附录:训练常见问题 问题1:在训练过程中遇到NPU out of memory 解决方法: 容器内执行以下命令,指定NPU内存分配策略的环境变量,开启动态内存分配,即在需要时动态分配内存,可以提高内存利用率,减少OOM错误的发生。 export PYTORCH_NPU_ALLOC_CONF
将Notebook的Conda环境迁移到SFS磁盘 本文介绍了如何将Notebook的Conda环境迁移到SFS磁盘上。这样重启Notebook实例后,Conda环境不会丢失。 步骤如下: 创建新的虚拟环境并保存到SFS目录 克隆原有的虚拟环境到SFS盘 重新启动镜像激活SFS盘中的虚拟环境
ff状态 转硬件处理 NPU卡无法正常使用 NPU: lspci查询缺少设备 LspciCardNotFound 重要 一般是由于NPU掉卡 转硬件处理 NPU卡无法正常使用 NPU: 温度超过阈值 TemperatureOverUpperLimit 重要 可能是由于DDR颗粒温度过高或过温软件预警
PYTORCH_NPU_ALLOC_CONF=expandable_segments:False;llava多卡启动时需要关闭虚拟内存扩展;开启时可能提升模型性能。允许分配器最初创建一个段,然后在以后需要更多内存时扩展它的大小。
GPU A系列裸金属服务器无法获取显卡如何解决 问题现象 在A系列裸金属服务器上使用PyTorch一段时间后,出现获取显卡失败的现象,报错如下: > torch.cuda.is_available() /usr/local/lib/python3.8/dist-packages/torch