检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
open”如何解决? 问题现象 原因分析 原因分析一:密钥文件未放在指定路径,详情请参考安全限制或VS Code文档。请参考解决方法一处理。 原因分析二:当操作系统为macOS/Linux时,可能是密钥文件或放置密钥的文件夹权限问题,请参考解决方法二处理。 解决方法 解决方法一: 请将密钥放在如下路径或其子路径下:
communication package - torch.distributed — PyTorch 2.3 documentation 父主题: 常见错误原因和解决方法
communication package - torch.distributed — PyTorch 2.3 documentation 父主题: 常见错误原因和解决方法
创建Qwen2-0.5B或Qwen2-1.5B模型的LoRA微调类型的调优任务,显示创建失败 问题现象 创建LoRA调优任务,选择支持Modellink框架类型的模型Qwen2-0.5B,数据集选择MOSS格式的jsonl数据,添加超参设置,创建调优任务失败。 关键日志报错: AttributeError:
报错提示 解决方法 1. 需要保证磁盘IO带宽正常,可以在36分钟内将文件保存到磁盘。单个节点内,最大只有60G(实际应该在40G以下)的文件内容,只要在36分钟内保存完成,就不会报超时错误。 2. 忽略该报错,因为报错不影响实际报错的权重。 父主题: 常见错误原因和解决方法
报错提示 解决方法 1. 需要保证磁盘IO带宽正常,可以在36分钟内将文件保存到磁盘。单个节点内,最大只有60G(实际应该在40G以下)的文件内容,只要在36分钟内保存完成,就不会报超时错误。 2. 忽略该报错,因为报错不影响实际保存的权重。 父主题: 常见错误原因和解决方法
报错提示 解决方法 1. 需要保证磁盘IO带宽正常,可以在36分钟内将文件保存到磁盘。单个节点内,最大只有60G(实际应该在40G以下)的文件内容,只要在36分钟内保存完成,就不会报超时错误。 2. 忽略该报错,因为报错不影响实际报错的权重。 父主题: 常见错误原因和解决方法
无法导入模块 问题现象 ModelArts训练作业导入模块时日志报错: Traceback (most recent call last):File "project_dir/main.py", line 1, in <module>from module_dir import module_file
communication package - torch.distributed — PyTorch 2.3 documentation 父主题: 常见错误原因和解决方法
communication package - torch.distributed — PyTorch 2.3 documentation 父主题: 常见错误原因和解决方法
本节将详细说明以自定义引擎方式创建模型的步骤。 创建模型并查看模型详情 登录ModelArts管理控制台,进入“模型管理”页面中,单击“创建模型”,进入模型创建页面,设置相关参数如下: 元模型来源:选择“从对象存储服务(OBS)中选择”。 选择元模型:从OBS中选择一个模型包。 AI引擎:选择“Custom”。
communication package - torch.distributed — PyTorch 2.3 documentation 父主题: 常见错误原因和解决方法
communication package - torch.distributed — PyTorch 2.3 documentation 父主题: 常见错误原因和解决方法
ModelArts使用对象存储服务(Object Storage Service,简称OBS)进行数据存储以及模型的备份和快照,实现安全、高可靠和低成本的存储需求。因此,在使用ModelArts之前通常先创建一个OBS桶,然后在OBS桶中创建文件夹用于存放数据。 本文档也以将运行代码以及输入输出数据存放OBS为例,请
py会在cache中读取SimSun.ttf 文件,如果没有,就会联网下载,可能会遇到: SSL:CERTIFICATE_VERIFY_FAILED ssl.1129错误 407 Proxy Authentication Required 解决方案: 1. 直接手动下载 SimSun.ttf 传到 模型权重目录下
communication package - torch.distributed — PyTorch 2.3 documentation 父主题: 常见错误原因和解决方法
communication package - torch.distributed — PyTorch 2.3 documentation 父主题: 常见错误原因和解决方法
communication package - torch.distributed — PyTorch 2.3 documentation 父主题: 常见错误原因和解决方法
communication package - torch.distributed — PyTorch 2.3 documentation 父主题: 常见错误原因和解决方法
断尝试调整超参来迭代模型;或在实验阶段,有一个可以优化训练的性能的想法,则会回到开发阶段,重新优化代码。 图1 模型开发过程 ModelArts提供了模型训练的功能,方便您查看训练情况并不断调整您的模型参数。您还可以基于不同的数据,选择不同规格的资源池用于模型训练。 请参考以下指导在ModelArts