检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
ModelArts环境挂载目录说明 本小节介绍Notebook开发环境、训练任务实例的目录挂载情况(以下挂载点在保存镜像的时候不会保存)。详情如下: Notebook 表1 Notebook挂载点介绍 挂载点 是否只读 备注 /home/ma-user/work/ 否 客户数据的持久化目录。
INIT:初始化。 CREATING:镜像保存中,此时Notebook不可用。 CREATE_FAILED:镜像保存失败。 ERROR:错误。 DELETED:已删除。 ACTIVE:镜像保存成功,保存的镜像可以在SWR控制台查看,同时可以基于保存的镜像创建Notebook实例。 status_message
数建议设置为“data_url”,表示数据输入来源,也支持用户根据1的算法代码自定义代码参数。 模型训练结束后,训练模型以及相关输出信息需保存在OBS路径。“输出”数据默认配置为模型输出,代码参数为“train_url”,也支持用户根据1的算法代码自定义输出路径参数。 在创建训练作业时,填写输入路径和输出路径。
module named 'numba' 问题现象 在Notebook中使用!pip install numba命令安装了numba库且运行正常(且已保存为自定义镜像), 然后使用DataArts执行此脚本的任务时提示没有这个库。 原因分析 客户创建了多个虚拟环境,numba库安装在了python-3
数据保护手段 说明 静态数据保护 对于AI Gallery收集的用户个人信息中的敏感信息,如用户邮箱和手机号,AI Gallery在数据库中做了加密处理。其中,加密算法采用了国际通用的AES算法。 传输中的数据保护 在ModelArts中导入模型时,支持用户自己选择HTTP和
断点续训和故障快恢说明 相同点 断点续训(Checkpointing)和故障快恢都是指训练中断后可从训练中一定间隔(${save-interval})保存的模型(包括模型参数、优化器状态、训练迭代次数等)继续训练恢复,而不需要从头开始。 不同点 断点续训:可指定加载训练过程中生成的Megat
断点续训和故障快恢说明 相同点 断点续训(Checkpointing)和故障快恢都是指训练中断后可从训练中一定间隔(${save-interval})保存的模型(包括模型参数、优化器状态、训练迭代次数等)继续训练恢复,而不需要从头开始。 不同点 断点续训:可指定加载训练过程中生成的Megat
断点续训和故障快恢说明 相同点 断点续训(Checkpointing)和故障快恢都是指训练中断后可从训练中一定间隔(${save-interval})保存的模型(包括模型参数、优化器状态、训练迭代次数等)继续训练恢复,而不需要从头开始。 不同点 断点续训:可指定加载训练过程中生成的Megat
断点续训和故障快恢说明 相同点 断点续训(Checkpointing)和故障快恢都是指训练中断后可从训练中一定间隔(${save-interval})保存的模型(包括模型参数、优化器状态、训练迭代次数等)继续训练恢复,而不需要从头开始。 不同点 断点续训:可指定加载训练过程中生成的Megat
H中 保存开发环境镜像。 成功完成Notebook调测后,此时的Notebook已经包含了模型训练所有的依赖环境,因此可以将已经调测完成的开发环境保存成一个镜像,选择“Notebook>更多>保存镜像”。此时Notebook会冻结,需要等待几分钟(只需要保存一次)。 保存后的镜像
Studio大模型即服务平台创建自定义模型、调优或压缩模型时,需要在对象存储服务OBS中创建OBS桶,用于存放模型权重文件、训练数据集或者是存放永久保存的日志。 创建OBS桶和上传文件的操作指导请参见OBS控制台快速入门。 OBS桶必须和MaaS服务在同一个Region下,否则无法选择到该OBS路径。
镜像保存时报错“container size %dG is greater than threshold %dG”如何解决? 问题现象 在Notebook里保存镜像时报错“container size %dG is greater than threshold %dG”。 原因分析
sh脚本 Step3 Notebook中保存镜像 Notebook实例状态必须为“运行中”才可以一键进行镜像保存。 在Notebook列表中,对于要保存的Notebook实例,单击右侧“操作”列中的“更多 > 保存镜像”,进入“保存镜像”对话框。 在保存镜像对话框中,设置组织、镜像名称、
息将会变成该模型资产的标签,并且自动同步在模型描述部分,保存到“README.md”文件里。 模型描述部分是一个可在线编辑、预览的Markdown文件,里面包含该模型的简介、能力描述、训练情况、引用等信息。编辑内容会自动保存在“README.md”文件里。 更新后的“README
“队列名称”:系统自动将当前账号下的DLI队列展现在列表中,您可以在下拉框中选择您所需的队列。 “数据库名称”:根据选择的队列展现所有的数据库,请在下拉框中选择您所需的数据库。 “表名称”:根据选择的数据库展现此数据库中的所有表。请在下拉框中选择您所需的表。 DLI的详细功能说明,请参见《DLI用户指南》。
skew. Attempting to adjust the signer 原因分析 OBS限制单次上传文件大小为5GB,TensorFlow保存summary可能是本地缓存,在每次触发flush时将该summary文件覆盖OBS上的原文件。当超过5GB后,由于达到了OBS单次导入文件大小的上限,导致无法继续写入。
使用ModelArts Standard自动学习实现口罩检测 该案例是使用华为云一站式AI开发平台ModelArts的新版“自动学习”功能,基于华为云AI开发者社区AI Gallery中的数据集资产,让零AI基础的开发者完成“物体检测”的AI模型的训练和部署。依据开发者提供的标注
已适配断点续训练。 图1 开启故障重启 断点续训练是通过checkpoint机制实现。checkpoint机制是在模型训练的过程中,不断地保存训练结果(包括但不限于EPOCH、模型权重、优化器状态、调度器状态)。即便模型训练中断,也可以基于checkpoint接续训练。 当训练作
PyTorch版reload ckpt PyTorch模型保存有两种方式。 仅保存模型参数 state_dict = model.state_dict() torch.save(state_dict, path) 保存整个Model(不推荐) torch.save(model,
'home/ma-user/work/SR/RDN_train_base'] 图1 运行代码报错 原因分析 根据报错提示,需要排查是否将大量数据被保存在“/tmp”中。 处理方法 进入到“Terminal”界面。在“/tmp”目录下,执行命令du -sh *,查看该目录下的空间占用情况。