检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
setting max_split_size_mb to avoid fragmentation. 解决方法 通过npu-smi info查看是否有进程资源占用NPU,导致训练时显存不足。解决可通过kill掉残留的进程或等待资源释放。 可调整参数:TP张量并行(tensor-model-parallel-size)
setting max_split_size_mb to avoid fragmentation. 解决方法 通过npu-smi info查看是否有进程资源占用NPU,导致训练时显存不足。解决可通过kill掉残留的进程或等待资源释放。 可调整参数:TP张量并行(tensor-model-parallel-size)
setting max_split_size_mb to avoid fragmentation. 解决方法 通过npu-smi info查看是否有进程资源占用NPU,导致训练时显存不足。解决可通过kill掉残留的进程或等待资源释放。 可调整参数:TP张量并行(tensor-model-parallel-size)
communication package - torch.distributed — PyTorch 2.3 documentation 父主题: 常见错误原因和解决方法
communication package - torch.distributed — PyTorch 2.3 documentation 父主题: 常见错误原因和解决方法
communication package - torch.distributed — PyTorch 2.3 documentation 父主题: 常见错误原因和解决方法
communication package - torch.distributed — PyTorch 2.3 documentation 父主题: 常见错误原因和解决方法
资源池推理服务一直初始化中如何解决 问题现象 创建资源池时作业类型选择了推理服务,资源池创建成功后推理一直显示“环境初始化。 原因分析 专属池网段和推理微服务dispatcher网段冲突,导致专属池上的VPCEP终端节点无法创建,该region无法使用此网段创建包含推理服务的资源池。
communication package - torch.distributed — PyTorch 2.3 documentation 父主题: 常见错误原因和解决方法
communication package - torch.distributed — PyTorch 2.3 documentation 父主题: 常见错误原因和解决方法
communication package - torch.distributed — PyTorch 2.3 documentation 父主题: 常见错误原因和解决方法
communication package - torch.distributed — PyTorch 2.3 documentation 父主题: 常见错误原因和解决方法
communication package - torch.distributed — PyTorch 2.3 documentation 父主题: 常见错误原因和解决方法
communication package - torch.distributed — PyTorch 2.3 documentation 父主题: 常见错误原因和解决方法
communication package - torch.distributed — PyTorch 2.3 documentation 父主题: 常见错误原因和解决方法
communication package - torch.distributed — PyTorch 2.3 documentation 父主题: 常见错误原因和解决方法
max_split_size_mb to avoid fragmentation. 解决方法: 通过npu-smi info查看是否有进程资源占用NPU,导致训练时显存不足。解决可通过kill掉残留的进程或等待资源释放。 父主题: 常见错误原因和解决方法
SSL:CERTIFICATE_VERIFY_FAILED ssl.1129错误 407 Proxy Authentication Required 解决方案: 1. 直接手动下载 SimSun.ttf 传到 模型权重目录下 /home/ma-user/work/model-dir/Qwen-VL-Chat/
VS Code连接开发环境失败时的排查方法 VS Code连接开发环境失败时,请参考以下步骤进行基础排查。 网络链路检查 在ModelArts控制台查看Notebook实例状态是否正常,确保实例无问题。 在VS Code Terminal里执行如下命令检测SSH命令是否可用; ssh
报错提示 解决方法 1. 需要保证磁盘IO带宽正常,可以在36分钟内将文件保存到磁盘。单个节点内,最大只有60G(实际应该在40G以下)的文件内容,只要在36分钟内保存完成,就不会报超时错误。 2. 忽略该报错,因为报错不影响实际报错的权重。 父主题: 常见错误原因和解决方法