智能制造-基础支撑系统:工业AI运营平台设计

时间:2024-09-19 16:32:04

工业AI运营平台设计

本次工业AI运营平台同样以华为ModelArts AI技术平台为基础进行构建。华为ModelArts是面向AI开发者的一站式开发平台

为了满足人工智能计算中心的业务发展需求,工业AI运营平台提供但不限于以下能力:

包含数据管理、模型管理部署、在线推理、批量推理、工作流引擎平台、AI算法模型资产管理等功能模块,并配置管理标书中给定规模的AI推理资源。

  • 整体系统:系统采用B/S架构,无需安装插件,无需下载客户端
  • AI应用模型管理:提供管理模型版本变化的能力,记录各版本模型发布时间、模型大小、精度、AI引擎、模型来源等信息,对模型进行分析和优化时进行模型比对和评估;支持模型以镜像方式存储和导入;支持查询模型版本详情,包括模型名称、ID、状态、版本号、部署类型、事件的信息;

    提供模型存储、查询和删除的能力,支持多种类型AI引擎的统一管理;支持从训练作业导入模型、支持从O对象存储导入模型、支持导入用户 自定义镜像 ;支持修改AI应用描述;支持将Tensorflow模型格式转换为Mindspore模型格式;

  • 部署管理:支持在线推理服务和批量推理服务两种形式部署;支持将AI应用多个版本部署为一个服务,可配置不同版本分流比例;模型部署为在线推理服务时,平台自动配置对外Rest API 接口,以提供实时推理服务,通过AKSK认证保证服务的安全访问;在线服务Rest API接口使用时,支持从公网发起预测请求同时支持从租户VPC发起预测请求;支持多种节点规格进行在线推理服务与批量推理服务部署;支持服务部署在专属资源池或公共资源池中;支持对在线服务每秒内能够被访问的次数上限进行配置;支持在线推理服务设置自动停止时间,实现空闲算力自动回收,提升资源使用率;支持对在线服务的配置、更新、事件进行记录,对在线服务的变更进行跟踪与回溯;支持查看在线推理服务实时资源占用情况,资源占用指标包括CPU,内存,AI芯片;支持查看在线推理服务实时日志;支持在线服务滚动升级,实现平滑更新在线服务的AI应用版本;支持对在线服务的查询,更新,对在线服务进行启停;支持从控制台发起预测请求进行在线服务效果测试;支持对在线推理服务进行数据采集,采集到的数据自动上传至对象存储;
  • 资源管理:具备不同类型算力资源的统一纳管能力,可纳管国内外主流AI芯片,涵盖英伟达GPU、昇腾NPU等;具备资源调度、分配与管理能力;支持紧凑型资源调度,提升资源使用率;支持资源池扩缩容;支持对专属资源池的资源分配率、使用率查看;支持将开发环境、训练作业、推理服务部署到公共资源池和专属资源池中;
  • AI Hub:通过AI Hub实现AI算法模型资产管理。支持对算法、数据集、workflow的资产进行发布、订阅、版本管理、查询、编辑、收藏;支持资产目录,支持通过标签摘选资产,支持收藏和取消收藏资产
  • workflow:通过workflow构建工作流引擎平台。

    支持通过工作流进行有向无环图(Directed Acyclic Graph,DAG)的开发;支持工作流,支持定义作业节点、模型注册节点、服务部署节点、条件节点;支持流水线工具,支持覆盖数据标注、数据处理、模型开发/训练、模型评估、应用开发、应用评估等步骤;支持工作流的启动、重试、停止、继续运行等基本功能;支持查看工作流节点的运行状态、启动时间以及运行时长;支持工作流目录统一规划,支持资源配置管理和参数配置管理;

    支持从 AI Hub订阅Workflow;支持Workflow进行管理包括启停、查询、删除;支持将数据标注、模型训练、AI应用管理、服务部署、服务更新等能力进行流程编排;支持对历史Workflow运行的参数以及状态记录,方便回溯与对比;

support.huaweicloud.com/riipra-mnft/riipra_27.html