检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
TF-1.13.1-python3.6 TF-2.1.0-python3.6 PyTorch-1.4.0-python3.6 下文将介绍如何在训练中使用评估代码。对训练代码做一定的适配和修正,分为三个方面:添加输出目录、复制数据集到本地、映射数据集路径到OBS。 添加输出目录
才需要带上。 train-num-samples:指定每个epoch需要训练的样本个数,不超过总样本个数。 batch-size:指定一次处理的数据batch。 epochs:指定训练的epoch个数。 训练结束后,模型输出目录为: /home/ma-user/open_clip
练作业,则该用户必须拥有 "modelarts:trainJob:create" 的权限才可以完成操作(无论界面操作还是API调用)。关于如何给一个用户赋权(准确讲是需要先将用户加入用户组,再面向用户组赋权),可以参考IAM的文档《权限管理》。 而ModelArts还有一个特殊的
目录下执行上述ma-pre-start脚本,使用该机制可以更新容器镜像内安装的Ascend RUN包,或者设置一些训练运行时额外需要的全局环境变量。 如何查看训练作业日志 在训练作业详情页,训练日志窗口提供日志预览、日志下载、日志中搜索关键字、系统日志过滤能力。 预览 系统日志窗口提供训练日
训练过程中保存Checkpoint的个数。最小值为1,最大值为“迭代步数/Iterations”的参数值,不超过10。Checkpoint会自动存储到“调优后模型权重保存路径”的OBS路径下。 资源设置 资源池类型 资源池分为公共资源池与专属资源池。 公共资源池供所有租户共享使用。 专属资源池需单独创建,不与其他租户共享。
model_registration], storages=[storage] ) 从训练作业中注册模型(模型输入来源OBS路径,训练完成的模型已存储到OBS路径) import modelarts.workflow as wf # 通过ModelStep来定义一个模型注册节点,输入来源于OBS中
alo_name String 别名。 id Integer 原因ID。 reason String 原因描述。 suggestion String 处理建议。 表4 Worker 参数 参数类型 描述 create_time Long 创建时间。 description String 标注
Web Service,并且提供在线的测试UI与监控能力,服务一直保持运行。 batch为批量服务,批量服务可对批量数据进行推理,完成数据处理后自动停止。 edge表示边缘服务,通过华为云智能边缘平台,在边缘节点将模型部署为一个Web Service,需提前在IEF(智能边缘服务)创建好节点。
output2=obs://bucket/output2 --input String 否 训练的输入信息,指定后,训练作业将会把对应OBS上的数据下载到训练容器,并将数据存储路径通过指定的参数传递给训练脚本。如果需要指定多个参数,可以使用--input data_path1=obs://bucket/data1
alo_name String 别名。 id Integer 原因ID。 reason String 原因描述。 suggestion String 处理建议。 表6 Worker 参数 参数类型 描述 create_time Long 创建时间。 description String 标注
alo_name String 别名。 id Integer 原因ID。 reason String 原因描述。 suggestion String 处理建议。 表6 Worker 参数 参数类型 描述 create_time Long 创建时间。 description String 标注
路径或者用户已上传到DLI资源管理系统的类型为jar或pyFile的程序包名。 -cn / --class_name String 是 批处理作业的Java/Spark主类。 --name String 否 创建时用户指定的作业名称,不能超过128个字符。 --image String
f'epoch_{epoch}.pth')) if __name__ == '__main__': main() 常见问题 1、示例代码中如何使用不同的数据集? 上述代码如果使用cifar10数据集,则将数据集下载并解压后,上传至OBS桶中,文件目录结构如下: DDP |--- main