正在生成
详细信息:
检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
GPU规格资源的每个节点会有一个“/cache”目录,空间大小为4TB。并确认该目录下并发创建的文件数量是否过大,占用过多存储空间会出现inode耗尽的情况,导致空间不足。 请排查是否使用的是GPU资源。如果使用的是CPU规格的资源,“/cache”与代码目录共用10G,会造成内存不足,请更改为使用GPU资源。
模型精度有问题怎么办? 模型转换失败时如何查看日志和定位原因? Stable Diffusion WebUI如何适配? LoRA适配流是怎么样的? 数据类型不匹配问题如何处理? 父主题: 基于AIGC模型的GPU推理业务迁移至昇腾指导
Integer 作业资源规格总数。 specs specs结构数组 资源规格参数列表,如表4所示。 表4 specs属性列表说明 参数 参数类型 说明 spec_id Long 资源规格的ID。 core String 资源规格的核数。 cpu String 资源规格CPU内存。 gpu_num
json”文件,则此处会显示inference_params文件里的参数配置项,支持修改自定义镜像的部署参数。 计算规格选择 - 按需选择计算规格。单击“选择”,在弹窗中选择资源规格并设置运行时长控制,单击“确定”。 在“所在区”选择计算规格所在的区域。默认显示全部区域的计算规格。 选择计算
在ModelArts控制台查看监控指标 在总览页查看ModelArts监控指标 在ModelArts控制台总览页,支持查看生产概况、资源占用情况、训练作业资源利用情况。您可以单击生产概况的链接、资源池名称、训练作业,跳转到对应界面查看更多详情。 图1 总览页查看监控信息 在总览页
ode-com。 规格管理 - 支持添加多个规格。限制如下: 当选择多个相同规格时,可打开高级选项指定节点池名称,至多只有一个可不指定节点池名称。 选择多个规格的CPU架构必须相同。例如都是X86,或者都是ARM。 如果选择了多个GPU或NPU规格,由于不同规格的参数网络平面不互
部署的在线服务状态为告警 服务启动失败 服务部署、启动、升级和修改时,拉取镜像失败如何处理? 服务部署、启动、升级和修改时,镜像不断重启如何处理? 服务部署、启动、升级和修改时,容器健康检查失败如何处理? 服务部署、启动、升级和修改时,资源不足如何处理? 模型使用CV2包部署在线服务报错
ECS获取和上传基础镜像 Step1 创建ECS 下文中介绍如何在ECS中构建一个训练镜像,请参考ECS文档购买一个Linux弹性云服务器。完成网络配置、高级配置等步骤,可根据默认选择,或进行自定义。创建完成后,单击“远程登录”,后续安装Docker等操作均在该ECS上进行。 注
ECS获取和上传基础镜像 Step1 创建ECS 下文中介绍如何在ECS中构建一个训练镜像,请参考ECS文档购买一个Linux弹性云服务器。完成网络配置、高级配置等步骤,可根据默认选择,或进行自定义。创建完成后,单击“远程登录”,后续安装Docker等操作均在该ECS上进行。 注
百分比(Percent) 0~100% GPU内存带宽利用率 ma_container_gpu_mem_copy_util 表示内存带宽利用率。以英伟达GP Vnt1为例,其最大内存带宽为900 GB/sec,如果当前的内存带宽为450 GB/sec,则内存带宽利用率为50%。 百分比(Percent)
原因,导致出现“内存不够”问题,最终导致该容器实例崩溃。 出现此问题后,系统将自动重启Notebook,来修复实例崩溃的问题。此时只是解决了崩溃问题,如果重新运行训练代码仍将失败。如果您需要解决“内存不够”的问题,建议您创建一个新的Notebook,使用更高规格的资源池,比如专属
原因,导致出现“内存不够”问题,最终导致该容器实例崩溃。 出现此问题后,系统将自动重启Notebook,来修复实例崩溃的问题。此时只是解决了崩溃问题,如果重新运行训练代码仍将失败。如果您需要解决“内存不够”的问题,建议您创建一个新的Notebook,使用更高规格的资源池,比如专属
准备一台具有Docker功能的机器,如果没有,建议申请一台弹性云服务器并购买弹性公网IP,并在准备好的机器上安装必要的软件。 ModelArts提供了ubuntu系统的脚本,方便安装docker。 本地Linux机器的操作等同ECS服务器上的操作,请参考本案例。 登录ECS控制台,购买弹性云服务器,镜像选择“公共镜像”,推荐使用ubuntu18
环境准备 在华为云ModelArts Server预购相关超强算力的GPU裸金属服务器,并选择AIGC场景通用的镜像,完成使用Megatron-Deepspeed训练GPT2模型。本最佳实践使用以下镜像和规格: 镜像选择:Ubuntu 20.04 x86 64bit SDI3 for
完成预申请填写后,单击“提交”,在弹窗中确认申请的资源规格,确认无误后单击“确认提交”完成预购申请。 可以在“我的算力预申请”页面查看申请进展。仅当申请通过后才能购买资源,请耐心等待审核结果。 请确认预购申请的规格及数量,当申请获得审批后将无法再调整预购的资源规格。 管理算力预申请 在“我的算力预申
5T存储空间满了,具体规格的空间大小可参见训练环境中不同规格资源“/cache”目录的大小。 处理方法 如果在训练作业的工作目录下有core文件生成,可以在启动脚本最前面加上如下代码,来关闭core文件产生。 import os os.system("ulimit -c 0") 排
规模的神经网络。在大规模集群分布式训练时,会遇到集群中某个芯片、某台服务器故障,导致分布式训练任务失败。优雅退出是指中断的训练任务支持自动恢复,并可以在上一次训练中断的基础上继续训练,而不用从头开始。 约束限制 表1 约束限制 资源规格 Ascend 训练框架 MindSpore
pip源中的pip包更新了,之前能跑通的代码,在包更新之后产生了不兼容的情况,例如transformers包,导致import的时候出现了错误。 用户代码问题,出现了内存越界、非法访问内存空间的情况。 未知系统问题导致,建议先尝试重建作业,重建后仍然失败,建议提工单定位。 处理方法 如果存在之前能跑通,什么都没修改,
服务部署、启动、升级和修改时,拉取镜像失败如何处理? 原因分析 节点磁盘不足,镜像大小过大。 解决方法 首先考虑优化镜像,减小节点磁盘的占用。 优化镜像无法解决问题,请联系系统管理员处理。 父主题: 服务部署
IDL中的WebSocket API由W3C标准化。 WebSocket使得客户端和服务器之间的数据交换变得更加简单,允许服务端主动向客户端推送数据。在WebSocket API中,浏览器和服务器只需要完成一次握手,两者之间就可以建立持久性的连接,并进行双向数据传输。 前提条件