检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
to an empty obs directory”。 原因分析 对于不支持断点训练的模型,如果选择训练输出路径不是空目录,会出现该报错。 处理方法 对于不支持断点训练的模型,请您将模型的输出路径train_url设置为空目录。 父主题: 预置算法运行故障
MoXing Framework功能介绍 MoXing Framework模块为MoXing提供基础公共组件,例如访问华为云的OBS服务,和具体的AI引擎解耦,在ModelArts支持的所有AI引擎(TensorFlow、MXNet、PyTorch、MindSpore等)下均可以使用。目前,提供的MoXing
Error: unhashable type: ‘list’。 原因分析 可能由于使用了多标签分类导致(即一个图片用了1个以上的标签)。 处理方法 使用单标签分类的数据集进行训练。 父主题: 数据集问题导致训练失败
表示流水线并行中一个micro batch所处理的样本量。在流水线并行中,为了减少气泡时间,会将一个step的数据切分成多个micro batch。 该值与TP和PP以及模型大小相关,可根据实际情况进行调整。 GBS 512 表示训练中所有机器一个step所处理的样本量。影响每一次训练迭代的时长。
_postprocess(self, data) 后处理方法,在推理请求完成后调用,用于将模型输出转换为API接口输出。 用户可以选择重写preprocess和postprocess方法,以实现API输入数据的预处理和推理输出结果的后处理。 重写模型父类的初始化方法init可能导致模型“运行异常”。
在导入模型时,提示单个模型文件大小超过5G限制。 原因分析 在不使用动态加载的情况下,系统对单个模型文件的限制大小为5G,超过时无法进行导入。 处理方法 精简模型文件后,重新导入。 使用动态加载功能进行导入。 图1 使用动态加载 父主题: 模型管理
启动,使用方式是边用边释放) 处理方法 可以参照日志提示"write line error"文档进行修复。 如果是分布式作业有的节点有错误,有的节点正常,建议提工单请求隔离有问题的节点。 如果是触发了欧拉操作系统的限制,有如下建议措施。 分目录处理,减少单个目录文件量。 减慢创建文件的速度。
NCCL是一个提供GPU间通信原语的库,实现集合通信和点对点发送/接收原语。当训练作业出现NCCL的报错时,可以通过调整NCCL的环境变量尝试解决问题。 处理步骤 进入状态“运行失败”的训练作业详情页,单击“日志”页签,查看NCCL报错。 如果出现报错“NCCL timeout”或者“RuntimeError:
running silently 原因分析 根据报错信息,可以判断是日志文件的大小已达到限制。出现该报错之后,日志不再增加,后台将继续运行。 处理方法 请您在启动文件中减少无用日志输出。 父主题: 硬盘限制故障
件、代码、数据文件和下载安装软件包的大小总和超过了限制。 如果使用的是自定义镜像导入,则是解压后镜像和镜像下载文件的大小总和超过了限制。 处理方法 精简模型或镜像后,重新导入。 父主题: 模型管理
rboard启动失败。 启动tensorboard对应的summary目录过大,导致tensorboard加载summary导致OOM。 处理方法 检查summary目录是否存在其他文件,如有请删除。 检查summary目的文件是否过大(比如大于5GB),如果有请减小summary。
rror: No module named xxx”的报错,可以判断是环境中没有包含用户依赖的python包。 处理方法 训练作业导入模块时日志出现前两条报错信息,处理方法如下: 首先保证被导入的module中有“__init__.py”存在,创建“module_dir”的“__init__
uri String 实例私有IP地址。 表7 Image 参数 参数类型 描述 arch String 该镜像所支持处理器架构类型。枚举值如下: X86_64:x86处理器架构。 AARCH64:ARM体系架构。 create_at Long 镜像创建的时间,UTC毫秒。 description
uri String 实例私有IP地址。 表7 Image 参数 参数类型 描述 arch String 该镜像所支持处理器架构类型。枚举值如下: X86_64:x86处理器架构。 AARCH64:ARM体系架构。 create_at Long 镜像创建的时间,UTC毫秒。 description
则不会进行模型训练。 cutoff_len 4096 文本处理时的最大长度,此处为4096,用户可根据自己要求适配。 packing true 可选项。当选用静态数据长度时,可将不足于文本处理时的最大长度数据弥补到文本处理时的最大长度;当选用动态数据长度则去掉此参数。 deepspeed
error [Errno 110] Connection timed out> 原因分析 由于安全性问题在ModelArts上不能联网下载。 处理方法 如果在运行训练作业时提示连接超时,请您将需要联网下载的数据提前下载至本地,并上传至OBS中。 父主题: 外网访问限制
数据准备完成后,需要创建相应项目支持的类型的数据集,具体操作请参考创建ModelArts数据集。 常见问题 使用从OBS选择的数据创建表格数据集如何处理Schema信息? Schema信息表示表格的列名和对应类型,需要跟导入数据的列数保持一致。 如果您的原始表格中已包含表头,需要开启“导
"num_turns": 3, "chat": { "turn_1": { "Human": "<|Human|>: 如何保障工作中遵循正确的安全准则?<eoh>\n", "Inner Thoughts": "<|Inner Thoughts|>:
在线服务报错 原因分析 根据报错日志分析,模型目录下存在多余文件“/home/mind/model/v0432/cdn_short.pt”。 处理方法 在模型目录中删除“/home/mind/model/v0432/cdn_short.pt”文件,重新导入模型后进行部署在线服务即可正常预测。
Step1 创建用户组并加入用户 主用户账号下面可以创建多个子账号,并对子账号的权限进行分组管理。此步骤介绍如何创建用户组、子账号、并将子账号加入用户组中。 主用户登录管理控制台,单击右上角用户名,在下拉框中选择“统一身份认证”,进入IAM服务。 图1 统一身份认证 创建用户组。