智能制造-基础支撑系统:工业AI开发平台设计

时间:2024-09-19 16:32:04

工业 AI开发平台 设计

本次工业AI开发平台采用华为ModelArts AI技术平台。华为ModelArts是面向AI开发者的一站式开发平台,提供海量数据预处理及半自动化标注、大规模分布式训练、自动化模型生成及模型部署能力,帮助用户快速创建和部署模型,管理全周期AI工作流。

“一站式”是指AI开发的各个环节,包括数据处理、模型训练、模型部署都可以在ModelArts上完成。从技术上看,ModelArts底层支持各种异构计算资源,开发者可以根据需要灵活选择使用,而不需要关心底层的技术。同时,ModelArts支持Tensorflow、PyTorch、MindSpore等主流开源的AI开发框架,也支持开发者使用自研的算法框架,匹配您的使用习惯。

ModelArts的理念就是让AI开发变得更简单、更方便。

ModelArts是一个一站式的开发平台,能够支撑开发者从数据到AI应用的全流程开发过程。包含数据处理、模型训练、模型管理、模型部署等操作。

ModelArts支持应用到图像分类、物体检测应用场景。

图1 物体检测应用场景

为了满足 工业互联网 平台的业务发展需求,华为设计的工业AI开发平台提供但不限于以下能力:

包含数据管理、模型开发训练、模型管理部署、资源调度引擎等功能模块,并配置管理标书中给定规模的AI训练资源。

具体功能介绍:

  • 整体系统:系统采用B/S架构,无需安装插件,无需下载客户端
  • 数据处理与标注:提供新建标注数据集功能,数据类型需涵盖图像、视频、文本、表格、音频;可设置数据集名称;支持按比例进行数据切分;支持将同一数据集发布为不同版本,对数据集进行跟踪与回溯;支持以Pascal Voc格式进行数据集导出与导入;支持清单文件(manifest)格式进行数据集导入;标注工具提供2D框、多边形、点、直线等标注图形;支持 数据可视化 标注,查看标注详情;支持标注框颜色按照物体类型区分。
  • 开发环境:预置主流AI引擎,如TensorFlow、MindSpore等开源框架;支持通过 自定义镜像 构建开发环境;支持自动停止,实现空闲算力自动回收提升资源使用率;支持镜像保存,对化镜像的修改完成持久化保存;支持镜像变更,允许用户在同一个Notebook实例中切换镜像,方便用户灵活调整实例的AI引擎;预置MindInsight实现模型训练可视化;支持通过SSH方式登录开发环境进行远程开发,通过密钥对和远程访问白名单实现开发环境的安全访问;支持开发环境实例选择不同的规格的AI芯片资源;预置MindStudio进行算子开发;提供对开发环境实例创建和管理,包括实例创建,实例运行,实例停止,实例删除;支持
  • 训练管理:预置计算框架Tensorflow、Mindspore;提供计算框架及其依赖环境的定期版本更新;支持用户以Docker镜像的方式自定义构建计算框架;;支持作业分组展示,配置列表展示,配置可见性,方便用户对不同实验作业的管理和查询;提供对训练作业创建和管理,包括作业创建,作业终止,作业重建等能力;提供实时日志查看训练作业实时状态,辅助模型调优;支持将实时日志持久化存储到对象存储;支持故障诊断模式,用户可以查看故障诊断数据辅助问题定位;支持查看训练作业历史资源占用情况,资源占用指标包括CPU,MEM,AI芯片利用率,AI芯片显存利用率;支持对不同版本的算法代码进行管理;
  • 资源管理:具备不同类型算力资源的统一纳管能力,可纳管国内外主流AI芯片,涵盖英伟达GPU、昇腾NPU等;具备资源调度、分配与管理能力;支持紧凑型资源调度,提升资源使用率;支持资源池扩缩容;支持对专属资源池的资源分配率、使用率查看;支持将开发环境、训练作业部署到公共资源池和专属资源池中;
support.huaweicloud.com/riipra-mnft/riipra_27.html