检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
训练服务简介 训练服务模块上承接数据服务和标注服务两大模块,为自动驾驶研发提供方便易用的模型训练和评测平台,让用户无需过多关注底层资源,聚焦算法和模型开发。用户可上传符合Octopus平台规范的训练算法,使用成熟的算法创建训练任务生成训练模型。此外,训练服务提供多种模型评测指标,
训练算法 平台支持算法创建。用户可通过指定算法的运行镜像和上传符合平台规范的算法文件来完成算法的创建,创建的算法可用于训练任务中。创建训练算法时可根据算法类型单独上传训练文件或将训练文件放置在镜像中,通过选择对应镜像时获取算法文件。 添加算法 准备数据。 准备用途为“训练/评测”的镜像和版本,详情可参考镜像仓库。
训练算法 添加自定义算法 添加自定义算法流程为“初始化训练算法 > 选择训练算法文件 > 上传训练算法文件”。具体操作步骤如下: 在左侧菜单栏中单击“训练服务 > 算法管理”。 单击“新建训练算法”,填写算法基本信息。 图1 新建训练算法 名称:包含中英文、数字、“_”“-”,不得超过64个字符。
训练服务 训练算法 模型评测 编译镜像 编译任务 父主题: 自动驾驶云服务全流程开发
训练服务 训练服务简介 算法管理 开发环境 训练任务 模型评测 编译管理 推理服务 任务队列
制作CCE集群训练镜像 Octopus平台依赖算子镜像内的/bin/bash、stdbuf、tee软件,请确保基础镜像内包含上述软件且能通过PATH找到。 一般情况下,训练与评测定义为同一个引擎,主要包括算法或评测脚本运行所需要的基本依赖环境。用户可使用命令行模式或Dockerfile模式进行构建。
训练任务 Octopus平台为用户提供训练任务管理(支持分布式训练),任务实时日志,产物(模型)管理等多种功能。 创建训练任务 在左侧菜单栏中选择“训练服务 > 训练任务”。 单击“新建训练任务”,填写基本信息。 名称:任务组名称,包含中英文、数字、“_”“-”,不得超过32个字符。
制作ModelArts集群训练镜像 制作训练镜像 八爪鱼训练镜像使用ma-user用户运行,用户需保证镜像内已创建ma-user用户,且训练过程中使用到的python环境或其他依赖对ma-user具有权限。本地镜像构建完成后,需要将镜像上传到八爪鱼平台镜像仓库。 如果使用dock
制作镜像(训练) 制作CCE集群训练镜像 制作ModelArts集群训练镜像 父主题: 镜像仓库
模型文件说明(训练) Octopus模型管理模块,支持用户上传模型,并将其用于模型评测、模型编译任务。如果需要将模型用于内置评测模板评测,除模型文件外,需另外包含推理启动文件: customer_inference.py 仅当需要使用内置评测指标计算时需要添加推理启动文件,文件名称可自定义,将该文件置于模型目录下。
推理服务 新建推理服务 在左侧菜单栏中单击“训练服务 > 推理服务”。 选择“推理服务”页签,单击“新建推理服务”,填写基本信息。 名称:输入推理服务名称,只能包含数字、英文、中文、下划线、中划线,不得超过64个字符。 描述:简要描述任务信息。不得包含“@^\#$%&*<>'|"/”,不得超过256个字符。
算法管理 训练算法 算法文件说明 父主题: 训练服务
评测脚本 在机器学习中,通常需要使用一定的方法和标准,来评测一个模型的预测精确度。自动驾驶领域通常涉及目标检测、语义分割、车道线检测等类别,如识别车辆、行人、可行区域等对象。 Octopus平台提供评测脚本管理功能,支持用户创建、删除、编辑、在线编辑、查询评测脚本等功能。 创建评测脚本
评测对比 创建评测对比任务 平台支持创建2-4个评测任务结果对比。 在左侧菜单栏中单击“训练服务 > 模型评测”。 选择“评测对比”页签,单击“新建评测对比”,填写基本信息。 名称:对比任务名称,只能包含数字、英文、中文、下划线、中划线。 描述:简要描述任务,不包含“@^\#$%
评测任务运行的过程中生成日志,训练服务提供日志的查看以及下载功能,支持查看评测任务的运行情况。 生成的日志文件共有四种形式: evaluate-xx-{id}.log:用户实际评测任务的训练日志。 evaluate-xx-{id}-init.log:Octopus平台提供的前置数据的准备日志。
四种: compile-{id}.log:用户实际训练任务的训练日志。 compile-{id}-init.log:Octopus平台提供的前置数据的准备日志。 compile-{id}-sidecar.log:Octopus平台提供的任务流程控制日志,包括日志同步、结果上传。
资源挂载 - 可选择平台上现有的模型、训练算法和数据集,开发环境启动时以挂载的方式加载到容器中。最多可选择5条。 模型:可选择用途为训练的非空模型仓库。 训练算法:可选创建成功的算法。 数据集:可选择有创建成功版本且非空的数据集。 缓存挂载 - 可选择平台上现有的数据缓存,开发
算法文件说明 上传到Octopus平台的本地算法文件包需要满足Octopus平台要求,本章节介绍算法文件基本要求及相关环境变量说明。 算法文件基本要求 算法文件目录结构可参考如下,需要包括启动文件“xxx.py”(启动文件名可自定义),以及一些必要的训练文件。 启动文件(必选) 算法的启动文件,直接填写相对路径,如
创建任务 Octopus平台提供对评测任务的管理,包括创建、删除、停止评测任务的操作。在评测任务页面, 实时显示多条评测任务的状态、任务创建时间等信息。评测任务创建完毕后,触发任务。评测任务结束后会生成评测任务结果文件,详细展示模型的各项评测指标得分。 创建评测任务 评测任务与评测参数和数据集有关。具体步骤如下:
任务队列 任务队列页面展示在训练服务创建的所有类型任务,包括任务的名称、类型、资源规格、实例数、优先级、工作空间、创建者、创建时间等信息。同时支持跳转至指定任务详情页和修改任务的优先级。 训练服务的各类型任务在提交创建之后,都将进入对应集群的任务队列等待调度器统一调度。调度器默认