下文将占用约4.5MB * 2048 = 10GB的AI服务器显存空间。 然而,AI服务器通常只能提供几十GB的显存容量,其中一部分还要用于存储模型参数,仅剩余部分空间用于KVCache缓存。例如:使用8张64GB的AI服务器部署GPT3模型,系统显存总容量为512GB(8 *
媒资转码 场景介绍 执行MPC服务的预置转码模板“DASH_H.265_4K_低码_1入9出”,将片源转为4K、2K、1080等码率的视频。该模板实际调用的是MPC服务的新建转码任务接口。 约束与限制 媒资转码算子不支持同步返回,如您配置了同步工作流执行媒资转码算子,则会采用异步方式执行,且返回值会格式异常。
EMS部署类问题 EMS内存池需要占用AI节点多少DRAM内存
EMS概念类问题 什么是KVCache
少冗余计算,从而显著提升了推理效率。 LLM推理 LLM(Large Language Model)推理服务旨在为大规模语言模型(LLM)的推理任务提供高效、低延迟的在线服务能力。EMS通过KVCache缓存、多级缓存、分布式内存池化以及智能亲和调度等技术,加速推理速度并降低资源消耗。
与其他服务的关系 图1 EMS与其他服务的关系 表1 EMS与其他服务的关系 服务名称 EMS服务与其他服务的关系 主要交互功能 云容器引擎 (Cloud Container Engine,CCE) EMS数据面镜像基于CCE云容器引擎服务进行安装部署。 部署EMS数据集群 云硬盘(Elastic
Records 是 Array 工作流触发的事件源事件消息。 inputs 否 Map[String]String 用户可修改参数列表,可以为空。 dynamic_source 否 Map 函数执行必须的参数,可用于传入调用的服务。 表2 函数的环境变量 名称 是否必选 参数类型 说明
Token,TTFT),同时也节省了推理算力,提高推理吞吐,加速了大模型推理服务的效率。 建议搭配服务 AI开发平台 ModelArts、云容器引擎 CCE、高性能弹性文件服务 SFS Turbo、对象存储服务 OBS。 图1 LLM大语言模型推理
推理的性能。 产品架构 EMS产品架构主要由三部分组成:领域专用服务SDK、分布式内存池和管理面。请参考图1 EMS产品架构。 图1 EMS产品架构 领域专用服务SDK包含一系列面向不同AI应用场景的插件和接口服务SDK,提供业务系统接入、业务数据布局和近数据处理等功能,实现业务
人脸比对 是 人脸识别服务FRS 圆角剪切 是 对象存储服务OBS 普通裁剪 是 对象存储服务OBS 索引剪切 是 对象存储服务OBS 图片水印 是 对象存储服务OBS 文字水印 是 对象存储服务OBS 缩略图 是 对象存储服务OBS 内切圆裁剪 是 对象存储服务OBS 自适应旋转 是
为保证数据传输的安全性,访问EMS服务控制台时支持HTTPS协议。 操作认证 所有EMS服务管理面的API都会进行IAM身份认证。 审计与安全 出于分析或审计等目的,用户可以开启日志记录功能。通过将EMS日志规则配置到云日志服务 LTS,您可以获取EMS数据面的相关运行日志,从而帮助您定位问题。 服务韧性
收费标准由算子发布者决定。 自营算子由算子云服务提供方决定收费标准。例如使用人脸识别算子,该算子由人脸识别服务FRS提供,会根据人脸识别接口调用次数进行收费。 查询算子的云服务提供方参见表华为算子一览,各个云服务的计费规则请查看该服务的“计费说明”章节。
基本概念 EMS基本概念
求,可以创建自定义策略。 目前华为云支持以下两种方式创建自定义策略: 可视化视图创建自定义策略:无需了解策略语法,按可视化视图导航栏选择云服务、操作、资源、条件等策略内容,可自动生成策略。 JSON视图创建自定义策略:可以在选择策略模板后,根据具体需求编辑策略内容;也可以直接在编辑框内编写JSON格式的策略内容。
API 算子市场 算子市场即DWR提供的算子库,提供方包括华为和第三方。 华为算子的能力源是华为云数据处理相关的云服务,如媒体处理MPC、图像识别Image等,DWR将云服务提供的各种数据处理能力通过函数生成算子并在算子市场发布。 第三方算子是基于DWR的算子注册能力,由第三方开发者
OBS 算子请求OBS API。 1 通过算子对数据进行处理,都会涉及到对OBS API的调用,每调用一次API都计算一次请求次数。对象存储服务OBS会根据调用API的请求次数进行费用收取,收取详情参见OBS请求费用说明。 FunctionGraph函数 算子使用FunctionGraph函数工作流。
启动工作流 通过事件触发器异步启动工作流 通过API异步启动工作流 通过API同步启动工作流 父主题: 数据处理
用户使用对象域名向OBS发送请求 2. DWR收到请求同步执行位于FunctionGraph的视频截图抽帧算子实例,调用MPC服务 3. MPC服务完成抽帧截图,将结果写回租户桶 4. DWR读取租户桶并将结果返回给用户 方案优势 无需额外代码编写,快速构建视频抽帧截图应用。 父主题:
您即将访问非华为云网站,请注意账号财产安全