检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
八爪鱼自动驾驶平台的多机分布式训练功能可以帮助用户加快模型训练速度,提高训练效率,并支持更大规模的深度学习任务。通过多机分布式训练,用户可以将训练任务分配到多台计算机或服务器上并行进行,充分利用硬件资源,加快模型收敛速度,提高训练效果。平台支持多种深度学习框架,如TensorFlow、PyTorch等,并提供简单易用
评测算法的自研proto接口 背景 Octopus内置一套评测算法,用于对自动驾驶系统的性能表现进行多维度评测。内置评测算法的评测结果按照eva.proto中的定义,序列化成pb文件保存起来。 Octopus仿真平台的前端通过解析评测pb对评测结果进行展示,目前控制台展示主要分为两大方面:
3D回放 前提要求 3D回放对回放机器配置有以下要求: 回放机器需要GPU硬件。硬件加速的方式:在chrome设置-高级中打开硬件加速 。 机器的参考配置(低配):8核cpu 、UHD620的gpu 、16G内存 、100Mbps带宽。 查看3D回放 3D回放页面详细说明如下: 图1
模型评测 在机器学习中,通常需要使用一定的方法和标准,来评测一个模型的预测精确度。自动驾驶领域通常涉及目标检测、语义分割、车道线检测等类别,如识别车辆、行人、可行区域等对象。 评测脚本 评测任务 任务队列 评测对比 模型数据集支持 父主题: 训练服务
用户可使用命令行模式或Dockerfile模式进行构建。 以数据集自定义镜像为例,一般的镜像制作Dockerfile示例如下: 数据集镜像不支持调用GPU资源。 # 载入基础镜像,用户可手动制作或拉取官方镜像 FROM registry-cbu.huawei.com/vcloud/euleros-python:2
击“下载”,即可将该日志文件下载到本地查看。 图11 任务日志 资源占用情况 在任务运行中,资源占用情况模块显示任务占用的CPU、内存、GPU显存利用率、占用率百分比的折线图。默认显示CPU占用情况折线图。 图12 资源占用情况 双击任一图例:显示全部资源占用折线图。 单击指定图例:只显示该图例折线图。
费用。 通用处理节点 octopus计算型CPU(16u32g)专属实例 增强计算性能,产生的费用。 octopus计算型CPU(64u128g)专属实例 AI处理节点 octopus计算型GPU(ant0324g24u96g)专属实例 octopus.hp.s2 octopus
评分方案介绍 Octopus评测指标共有30多项大类指标,当规控算法未通过某些评测指标后,评测分数应能反映算法的性能表现。 本设计根据指标的重要程度将其分为三大类: 主要指标(以下简称A类)。 次要指标(以下简称B类)。 未定义重要度指标(以下简称C类)。 本设计提供如下三种内置的评分方案:
x √ 已停止 √ √ x √ 服务监控 图3 查看监控信息 页面上支持展示当前推理服务的调用总次数和失败次数。 支持展示CPU、内存、GPU、显存四种资源的实时占用情况,便于及时调整服务所需资源规格,避免造成资源不足或浪费。 接口访问和调用 获取用户Token 调用推理服务接口
COMMON_DATASET(数据集) gpu_type String GPU类型(资源规格不包含GPU,此字段不会返回); 枚举值: Tnt004 Vnt1 Mnt06 Pnt1 Pnt004 gpu Integer GPU数量,整数(资源规格不包含GPU,此字段不会返回); cpu Double
存在的问题。 前提要求 3D回放对回放机器配置有以下要求: 回放机器需要GPU硬件。硬件加速的方式:在chrome设置-高级中打开硬件加速 。 机器的参考配置(最低配置):8核cpu 、UHD620的gpu 、16G内存 、100Mbps带宽。 查看数据回放 数据回放页面详细说明如下:
半径大,影响其他租户。 Octopus服务具备资源池和隔离能力,避免单租户资源被攻击导致爆炸半径过大风险。 Octopus服务定义并维护了性能规格用于自身的抗攻击性。例如:设置API访问限制,防止恶意接口调用等场景。 Octopus服务在攻击场景下,具备告警能力及自我保护能力。
3核。 内存:256MiB,因此可以设置内存值为300MiB。 这样可以尽可能减小单个任务的资源占用,从而提高并行任务数量,提升批量仿真性能。 注意:如果算法容器的值超过了前端界面提示的最大值,那么需要考虑提升集群节点的CPU或者内存配置。例如:图1显示CPU最大12.19,如
任务日志:单击任务视图,可显示相对应的任务运行过程中生成的日志信息,详情请查看评测任务日志查看与下载。 资源占用情况:单击任务视图,可显示相对应任务占用的CPU、内存、GPU显存利用率、占用率百分比的折线图,详情请查看资源占用情况。 删除任务 单击操作栏的“删除”,删除单个任务。 勾选多个任务,单击列表上方的“删除”,可批量删除任务。
身的安全,涵盖华为云数据中心的物理环境设施和运行其上的基础服务、平台服务、应用服务等。这不仅包括华为云基础设施和各项云服务技术的安全功能和性能本身,也包括运维运营安全,以及更广义的安全合规遵从。 租户:负责云服务内部的安全,安全地使用云。华为云租户的安全责任在于对使用的IaaS、
训练任务 1Gpu_4Core_16GiB 模型评测 1Gpu_2Core_8GiB 模型编译 2Core_4GiB 预标注 1GPU_2Core_8GiB 数据脱敏 1Core_1GiB 说明: 内置容器需要1Gpu_12Core_48GiB。 建议规格中的GPU类型和实际使用的GPU一致,避免管理混乱。
该模型的不同版本。 任务日志:任务运行过程中生成的日志信息,详情请查看编译任务日志查看下载。 资源占用情况:显示任务占用的CPU、内存、GPU及显存占用率百分比的折线图,详情请查看资源占用情况。 删除任务 单击操作栏的“删除”,删除单个任务。 勾选多个任务,单击列表上方的“删除”,可批量删除任务。
给新购买的节点打上对应的用途标签即可调度使用。 octopus计算型CPU(64u128g)专属实例 AI处理节点 octopus计算型GPU(ant0324g24u96g)专属实例 需要增加集群节点的数量时,可以购买AI处理节点增加节点实例,业务不会中断。购买成功后查看资源节点
标注流程 训练模型 训练算法 创建训练作业前需要先选择算法,可以使用Octopus内置的算法,也可以自定义算法。 训练算法 模型评测 在机器学习中,通常需要使用一定的方法和标准,来评测一个模型的预测精确度,用于衡量一个模型及其标注结果的可信度。自动驾驶领域的模型多用于目标检测,如识
查看集群纳管 运维配置提供集群纳管,由平台管理员账号进行管理和配置。集群提供多种节点的混合部署,基于高性能网络模型提供全方位、多场景、安全稳定的容器运行环境,平台可以将集群统一纳管,更方便查看节点资源使用量和修改节点用途,以及设置资源规格。其中,cce-user-job集群需强制