检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
主流开源大模型基于Standard+OBS+SFS适配PyTorch NPU训练指导(6.3.910) 场景介绍 准备工作 预训练 SFT全参微调训练 LoRA微调训练 查看日志和性能 训练脚本说明 常见错误原因和解决方法 父主题: LLM大语言模型训练推理
户查阅或修改。定义超参后会体现在启动命令中,以命令行参数的形式传入您的启动文件中。 单击“增加超参”手动添加超参。 编辑超参。 为保证数据安全,请勿输入敏感信息,例如明文密码。 表6 超参编辑参数 参数 说明 名称 填入超参名称。 超参名称支持64个以内字符,仅支持大小写字母、数字、下划线和中划线。
Lite的接口即可。 MindSpore Lite提供了Python、C++以及JAVA三种应用开发接口,此处以Python接口为例,介绍如何使用MindSpore Lite Python API构建并推理Stable Diffusion模型,更多信息请参考MindSpore Lite应用开发。
在ModelArts控制台界面上单击VS Code接入并在新界面单击打开,未弹出VS Code窗口 原因分析 未安装VS Code或者安装版本过低。 解决方法 下载并安装VS Code(Windows用户请单击“Win”,其他用户请单击“其他”下载),安装完成后单击“刷新”完成连接。
安装ToolKit工具时出现错误,如何处理? 问题现象 在安装ToolKit工具过程中,出现如下错误。 图1 错误提示 解决措施 此问题是因为插件版本和PyCharm版本不一致导致的,需要获取和PyCharm同一版本的插件安装,即2019.2或以上版本。 父主题: PyCharm
环境配置相关 如何查看Notebook使用的cuda版本? 如何打开ModelArts开发环境的Terminal功能? 如何在Notebook中安装外部库? 如何获取本机外网IP? 如何解决“在IOS系统里打开ModelArts的Notebook,字体显示异常”的问题? Notebook有代理吗?如何关闭?
务器的缓存目录下。 gallery-cli download {repo_id} {文件名} {文件名} 其中,“repo_id”如何获取,文件名如何获取。 如下所示,表示下载文件“config.json”和“merges.txt”到服务器的缓存目录“/test”下,当回显“100%”时表示下载完成。
“下载方式”:选择“ModelArts数据集”。 “目标区域”:选择您需要将该数据集下载到的区域位置,如“华北-北京四”。 “数据类型”:选择需要处理的文件类型。数据类型更多信息请参考数据集的类型。 “数据集输出位置”:数据集输出位置的OBS路径,此位置会存放输出的标注信息等文件,此位置
创建SFT全参微调训练任务 创建训练作业,并自定义名称、描述等信息。选择自定义算法,启动方式自定义,以及上传的镜像。训练脚本中会自动执行训练前的权重转换操作和数据处理操作。 图1 选择镜像 训练作业启动命令中输入: cd /home/ma-user/work/llm_train/AscendSpeed;
创建LoRA微调训练任务 创建训练作业,并自定义名称、描述等信息。选择自定义算法,启动方式自定义,以及上传的镜像。训练脚本中会自动执行训练前的权重转换操作和数据处理操作。 图1 选择镜像 训练作业启动命令中输入: cd /home/ma-user/work/llm_train/AscendSpeed;
式。本次迁移使用的是静态shape方式进行模型转换。 获取模型shape 由于在后续模型转换时需要知道待转换模型的shape信息,这里指导如何通过训练好的stable diffusion pytorch模型获取模型shape,主要有如下两种方式获取: 方式一:通过stable d
在ModelArts控制台界面上单击VS Code接入并在新界面单击打开,未弹出VS Code窗口 原因分析 未安装VS Code或者安装版本过低。 解决方法 下载并安装VS Code(Windows用户请单击“Win”,其他用户请单击“其他”下载),安装完成后单击“刷新”完成连接。
代码运行故障 Notebook运行代码报错,在'/tmp'中到不到文件 Notebook无法执行代码,如何处理? 运行训练代码,出现dead kernel,并导致实例崩溃 如何解决训练过程中出现的cudaCheckError错误? 如何处理使用opencv.imshow造成的内核崩溃?
VS Code自动升级后,导致远程连接时间过长 问题现象 原因分析 由于VS Code自动升级,导致连接时需要重新下载新版vscode-server。 解决方法 禁止VS Code自动升级。单击左下角选择Settings项,搜索Update: Mode,将其设置为none。 图1
主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导(6.3.909) 推理场景介绍 准备工作 部署推理服务 推理性能测试 推理精度测试 推理模型量化 附录:基于vLLM不同模型推理支持最小卡数和最大序列说明 附录:大模型推理常见问题 附录:工作负载Pod异常问题和解决方法
使用Windows下生成的文本文件时报错找不到路径? 问题现象 当在Notebook中使用Windows下生成的文本文件时,文本内容无法正确读取,可能报错找不到路径。 原因分析 Notebook是Linux环境,和Windows环境下的换行格式不同,Windows下是CRLF,而Linux下是LF。
在Notebook中使用tensorboard命令打开日志文件报错Permission denied 问题现象 在Notebook的Terminal中执行tensorboard --logdir ./命令,报错[Errno 13] Permission denied……。 原因分析
镜像保存时报错“BuildImage,True,Commit successfully|PushImage,False,Task is running.” 问题现象 镜像保存时报错BuildImage,True,Commit successfully|PushImage,False
使用PyCharm ToolKit ,提示Error occurs when accessing to OBS 问题现象 查看PyCharm ToolKit的日志,报错信息为:Error occurs when accessing to OBS。 原因分析 可能是用户无OBS权限。
文件上传下载 如何在Notebook中上传下载OBS文件? 如何上传本地文件至Notebook? 如何导入大文件到Notebook中? upload后,数据将上传到哪里? 如何下载Notebook中的文件到本地? 如何将开发环境Notebook A的数据复制到Notebook B中?