检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
原因分析 OBS连接不稳定可能会出现报错,“Unable to connect to endpoint”。 处理方法 对于OBS连接不稳定的现象,通过增加代码来解决。您可以在代码最前面增加如下代码,让TensorFlow对ckpt和summary的读取和写入可以通过本地缓存的方式中转解决:
原因分析 由于ModelArts的使用权限依赖OBS服务的授权,需要为用户授予OBS的系统权限。子用户的IAM权限是由其主用户设置的,如果主用户没有赋予OBS的putObjectAcl权限即会导致创建模型构建失败。 处理方法 了解ModelArts依赖的OBS权限自定义策略,请参见Mo
如果不再使用ModelArts,如何停止收费? 在ModelArts中进行AI全流程开发时,主要包括存储费用、资源费用。如果不再使用ModelArts,需要停止/删除ModelArts中运行的服务;删除在OBS中存储的数据;删除在EVS中存储的数据。 清理存储数据 由于Model
然后在本地VS Code的Terminal中使用ModelArts SDK上传本地文件至OBS,详情请参考文件传输进行OBS传输操作。 上传OBS文件到Notebook。在远程连接VS Code的Terminal中使用ModelArts SDK上传OBS文件到Notebook的操作示例如下:
gateway,或者偶现502 bad gateway。 原因分析 出现该问题的可能原因如下: 启动tensorboard对应的summary目录错误,导致tensorboard启动失败。 启动tensorboard对应的summary目录过大,导致tensorboard加载summary导致OOM。
文本分类目前只支持中文。 数据上传至OBS 在本文档中,采用通过OBS管理控制台将数据上传至OBS桶。 OBS上传文件的规范: 如不需要提前上传训练数据,请创建一个空文件夹用于存放工程后期生成的文件。 如需要提前上传待标注的文件,请创建一个空文件夹,然后将文本文件保存在该文件夹下,文本文件的目录结构如:
同业务场景下的授权范围请参考权限依赖和委托章节。 由于ModelArts的使用权限依赖OBS服务的授权,您需要为用户授予OBS的系统权限。 如果您需要授予用户关于OBS的所有权限和ModelArts的基础操作权限,请参见配置基础操作权限。 如果您需要对用户使用OBS和ModelA
主流开源大模型基于Standard+OBS适配PyTorch NPU训练指导(6.3.909) 场景介绍 准备工作 预训练 SFT全参微调训练 LoRA微调训练 查看日志和性能 训练脚本说明 常见错误原因和解决方法 父主题: LLM大语言模型训练推理
主流开源大模型基于Standard+OBS适配PyTorch NPU训练指导(6.3.910) 场景介绍 准备工作 预训练 SFT全参微调训练 LoRA微调训练 查看日志和性能 训练脚本说明 常见错误原因和解决方法 父主题: LLM大语言模型训练推理
主流开源大模型基于Standard+OBS适配PyTorch NPU训练指导(6.3.907) 场景介绍 准备工作 预训练 SFT全参微调训练 LoRA微调训练 查看日志和性能 训练脚本说明 常见错误原因和解决方法 父主题: LLM大语言模型训练推理
主流开源大模型基于Standard+OBS适配PyTorch NPU训练指导(6.3.911) 场景介绍 准备工作 预训练 SFT全参微调训练 LoRA微调训练 查看日志和性能 训练脚本说明 常见错误原因和解决方法 父主题: LLM大语言模型训练推理
主流开源大模型基于Standard+OBS适配PyTorch NPU训练指导(6.3.908) 场景介绍 准备工作 预训练 SFT全参微调训练 LoRA微调训练 查看日志和性能 训练脚本说明 常见错误原因和解决方法 父主题: LLM大语言模型训练推理
rch的OBS接口直接从OBS上读取数据。 如果文件较小,可以将OBS上的数据保存成“.tar”包。训练开始时从OBS上下载到“/cache”目录,解压以后使用。 如果文件较大,可以保存成多个“.tar”包,在入口脚本中调用多进程进行并行解压数据。不建议把散文件保存到OBS上,这样会导致下载数据很慢。
原因分析 推理服务的日志如果需要显示出来,需要代码中将日志打印到Console控制台。当前推理基础镜像使用的python的logging模块,采用的是默认的日志级别Warning,即当前只有warning级别的日志可以默认查询出来。如果想要指定INFO等级的日志能够查询出来,
提交训练作业报错“Invalid OBS path” 使用PyCharm Toolkit提交训练作业报错NoSuchKey 部署上线时,出现错误 如何查看PyCharm ToolKit的错误日志 如何通过PyCharm ToolKit创建多个作业同时训练? 使用PyCharm ToolKit
主流开源大模型基于Standard+OBS+SFS适配PyTorch NPU训练指导(6.3.907) 场景介绍 准备工作 预训练 SFT全参微调训练 LoRA微调训练 查看日志和性能 训练脚本说明 常见错误原因和解决方法 父主题: LLM大语言模型训练推理
主流开源大模型基于Standard+OBS+SFS适配PyTorch NPU训练指导(6.3.908) 场景介绍 准备工作 预训练 SFT全参微调训练 LoRA微调训练 查看日志和性能 训练脚本说明 常见错误原因和解决方法 父主题: LLM大语言模型训练推理
主流开源大模型基于Standard+OBS+SFS适配PyTorch NPU训练指导(6.3.911) 场景介绍 准备工作 预训练 SFT全参微调训练 LoRA微调训练 查看日志和性能 训练脚本说明 常见错误原因和解决方法 父主题: LLM大语言模型训练推理
分别单击“输入”和“输出”的数据存储位置,如图所示,选择OBS桶中指定的目录。ORIGINAL_TRAIN_DATA_PATH中则直接选中数据集文件。 “输入”和“输出”中的获取方式全部选择为:环境变量。 “输出”中的预下载至本地目标选择:下载,此时输出路径中的数据则会下载至OBS中。 Step3
分别单击“输入”和“输出”的数据存储位置,如图所示,选择OBS桶中指定的目录。ORIGINAL_TRAIN_DATA_PATH中则直接选中数据集文件。 “输入”和“输出”中的获取方式全部选择为:环境变量。 “输出”中的预下载至本地目标选择:下载,此时输出路径中的数据则会下载至OBS中。 Step3