检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
附录:大模型推理常见问题 问题1:在推理预测过程中遇到NPU out of memory。 解决方法:调整推理服务启动时的显存利用率,将--gpu-memory-utilization的值调小。 问题2:在推理预测过程中遇到ValueError:User-specified max_model_len
附录:大模型推理常见问题 问题1:在推理预测过程中遇到NPU out of memory。 解决方法:调整推理服务启动时的显存利用率,将--gpu-memory-utilization的值调小。 问题2:在推理预测过程中遇到ValueError:User-specified max_model_len
附录:大模型推理常见问题 问题1:在推理预测过程中遇到NPU out of memory。 解决方法:调整推理服务启动时的显存利用率,将--gpu-memory-utilization的值调小。 问题2:在推理预测过程中遇到ValueError:User-specified max_model_len
附录:Standard大模型推理常见问题 问题1:在推理预测过程中遇到NPU out of memory。 解决方法:调整推理服务启动时的显存利用率,将--gpu-memory-utilization的值调小。 问题2:在推理预测过程中遇到ValueError:User-specified
附录:大模型推理standard常见问题 问题1:在推理预测过程中遇到NPU out of memory。 解决方法:调整推理服务启动时的显存利用率,将--gpu-memory-utilization的值调小。 问题2:在推理预测过程中遇到ValueError:User-specified
附录:Standard大模型推理常见问题 问题1:在推理预测过程中遇到NPU out of memory。 解决方法:调整推理服务启动时的显存利用率,将--gpu-memory-utilization的值调小。 问题2:在推理预测过程中遇到ValueError:User-specified
申请证书时,“提交申请”按钮灰显,无法操作。 问题原因 可能原因一:欠费 可能原因二:权限不足 解决方法 请根据可能原因选择操作步骤: 原因一:欠费 解决方法:请您先充值,充值后再执行申请证书操作。 原因二:权限不足 解决方法:请联系您的管理员授予执行申请证书的操作权限。权限申请成功后,再执行操作。 父主题:
BS接口。而授予的读写权限中并没有包含这些操作的权限,所以会提示“拒绝访问,请检查响应权限”,或者“不允许在请求的资源上执行此操作”。 解决方法 即使界面出现了权限不足的提示,也并不影响已有的权限生效。通过API或SDK可以正常调用相关接口。 对于控制台或客户端工具(OBS Br
高频常见问题 使用AstroZero主要包含图1中四个阶段。本手册提供的案例重点覆盖产品了解、开通和使用三个阶段,即图1中前三个阶段。若已有案例不能满足需求,还可以通过Astro轻应用论坛、智能客服等途径,去寻找对应的解决方法。 图1 使用AstroZero云服务的阶段 产品咨询类
高频常见问题 集群管理 CCE集群创建失败的原因与解决方法? 集群的管理规模和控制节点的数量有关系吗? 当集群状态为“不可用”时,如何排查解决? 节点及节点池 集群可用但节点状态为“不可用”如何解决? 如何收集CCE集群中节点的日志? thinpool磁盘空间耗尽导致容器或节点异常时,如何解决?
解决方案提供商伙伴 伙伴政策 注册与认证 关联与解除关联 充值与调账 开具发票 激励 折扣与优惠券 严选商城和订单 其他
附录:训练常见问题 问题1:在训练过程中遇到NPU out of memory 解决方法: 容器内执行以下命令,指定NPU内存分配策略的环境变量,开启动态内存分配,即在需要时动态分配内存,可以提高内存利用率,减少OOM错误的发生。 export PYTORCH_NPU_ALLOC_CONF
附录:Standard大模型推理常见问题 问题1:在推理预测过程中遇到NPU out of memory。 解决方法:调整推理服务启动时的显存利用率,将--gpu-memory-utilization的值调小。 问题2:在推理预测过程中遇到ValueError:User-specified
附录:训练常见问题 问题1:在训练过程中遇到NPU out of memory 解决方法: 容器内执行以下命令,指定NPU内存分配策略的环境变量,开启动态内存分配,即在需要时动态分配内存,可以提高内存利用率,减少OOM错误的发生。 export PYTORCH_NPU_ALLOC_CONF
附录:训练常见问题 问题1:在训练过程中遇到NPU out of memory 解决方法: 容器内执行以下命令,指定NPU内存分配策略的环境变量,开启动态内存分配,即在需要时动态分配内存,可以提高内存利用率,减少OOM错误的发生。 export PYTORCH_NPU_ALLOC_CONF
附录:训练常见问题 问题1:在训练过程中遇到NPU out of memory 解决方法: 容器内执行以下命令,指定NPU内存分配策略的环境变量,开启动态内存分配,即在需要时动态分配内存,可以提高内存利用率,减少OOM错误的发生。 export PYTORCH_NPU_ALLOC_CONF
可能原因1:消息已被老化。 解决方法:修改老化时间。 可能原因2:消息的createTime时间戳不对。 Console页面是根据时间查询的,所以查不到。时间戳是由客户端生成,不同客户端有不同的处理策略,有的客户端默认值会是0或者-1,则查询不到消息。 解决方法:检查客户端消息的createTime设置是否正确。
Pod列表 在应用运维管理AOM界面,单击“日志 > 日志搜索”选择组件,查看错误信息。 图4 查看日志 问题原因: 上传的AK/SK失效。 解决方法: 重新上传有效的AK/SK。 在云容器实例CCI控制台,单击“存储管理 > 对象存储卷” , 单击“更新密钥”,重新上传有效的AK/SK。
package - torch.distributed — PyTorch 2.3 documentation 父主题: 常见错误原因和解决方法
package - torch.distributed — PyTorch 2.3 documentation 父主题: 常见错误原因和解决方法