与其他服务的关系 图1 EMS与其他服务的关系 表1 EMS与其他服务的关系 服务名称 EMS服务与其他服务的关系 主要交互功能 云容器引擎 (Cloud Container Engine,CCE) EMS数据面镜像基于CCE云容器引擎服务进行安装部署。 部署EMS数据集群 云硬盘(Elastic
什么是弹性内存存储 弹性内存存储(Elastic Memory Service,EMS)是一种以DRAM内存为主要存储介质的云基础设施服务,为LLM推理提供缓存和推理加速。EMS实现AI服务器的分布式内存池化管理,将LLM推理场景下多轮对话及公共前缀等历史KVCache缓存到EM
资源和成本 表1 资源和成本规划 资源 资源说明 数量 每月费用 OBS 算子请求OBS API。 1 通过算子对数据进行处理,都会涉及到对OBS API的调用,每调用一次API都计算一次请求次数。对象存储服务OBS会根据调用API的请求次数进行费用收取,收取详情参见OBS请求费用说明。
与其他服务的关系 DWR数据处理的数据源是华为云存储服务,DWR提供的华为云自有算子是通过函数生成,且能力源是华为云数据处理相关的云服务。因此,DWR与其他服务的关系如表1所示。 表1 DWR与其他云服务的关系 服务类别 服务名称 交互关系 存储服务 对象存储服务(Object Storage
资源和成本 表1 资源和成本规划 资源 资源说明 数量 每月费用 OBS 算子请求OBS API。 1 通过算子对数据进行处理,都会涉及到对OBS API的调用,每调用一次API都计算一次请求次数。对象存储服务OBS会根据调用API的请求次数进行费用收取,收取详情参见OBS请求费用说明。
提升LLM推理服务的吞吐性能,降低推理资源成本;同时缩短LLM推理首Token输出时延,改善用户对话体验。 分布式共享内存池,提升缓存命中率 EMS将AI服务器上空闲的DRAM内存构建成分布式内存池,突破单机内存瓶颈,提升缓存空间,同时使得节点间能够进行高效的数据共享,支持亲和调
I服务器的显存容量限制,现有的推理系统无法在AI服务器的显存中持续保存多轮对话的KVCache缓存。为了应对这一问题,系统通常会丢弃已处理对话的KV缓存,以腾出显存空间来服务新的请求。然而,当这些被丢弃的KV缓存对应的对话再次出现时,系统必须重新计算这些KV缓存,如图1 中的(a
型)推理过程的技术,KVCache通过缓存Attention机制中的Key和Value矩阵(K和V),以避免在生成新token时重复计算历史序列的中间结果,减少冗余计算,从而显著提升了推理效率。 LLM推理 LLM(Large Language Model)推理服务旨在为大规模语
供图形化界面,方便用户直观便捷的构建数据处理流程,同时提供了预置的算子和自定义函数能力,覆盖数据处理的各种场景。预置算子的详细介绍,请参见官方算子一览。用户在自行开发自定义函数时,函数的输入参数和输出参数需要遵守自定义函数开发规范。 DWR支持异步和同步两种方式启动工作流,其中同步方式支持直接返回数据:
测试算子:算子提供方在发布前可通过自定义算子方式完成DWR的alpha调试,可有效降低发布后的故障率,测试结果也是算子发布时的重要审核项。 发布算子等待审核:算子提供方完成步骤4中的测试后,进入到DWR控制台界面,根据提示信息提供必要的资料提交审核。 本次实践将重点描述步骤3、4、5完成算子的开发、测试、发布。 算子执行原理
Token,TTFT),同时也节省了推理算力,提高推理吞吐,加速了大模型推理服务的效率。 建议搭配服务 AI开发平台 ModelArts、云容器引擎 CCE、高性能弹性文件服务 SFS Turbo、对象存储服务 OBS。 图1 LLM大语言模型推理
研或集成商的数据处理软件,通过数据处理软件完成数据处理。 传统云上处理方式:使用云上存储服务和数据处理服务,数据写入存储服务后,再调用数据处理服务接口实现数据处理。 云上近数据处理方式:使用云上存储服务和DWR的近数据处理能力,数据写入存储服务后,自动触发DWR编排的工作流完成数据处理。
华为云:负责云服务自身的安全,提供安全的云。华为云的安全责任在于保障其所提供的IaaS、PaaS和SaaS类云服务自身的安全,涵盖华为云数据中心的物理环境设施和运行其上的基础服务、平台服务、应用服务等。这不仅包括华为云基础设施和各项云服务技术的安全功能和性能本身,也包括运维运营安全,以及更广义的安全合规遵从。
数据保护技术 数据安全 EMS通过多种数据保护手段和特性,保障EMS数据安全可靠。 表1 EMS数据保护手段 数据保护手段 简要说明 传输加密(HTTPS) 为保证数据传输的安全性,访问EMS服务控制台时支持HTTPS协议。 操作认证 所有EMS服务管理面的API都会进行IAM身份认证。 审计与安全
如果您需要使用一个工作流处理多种后缀的文件,可以为该工作流创建多条事件触发器来实现支持多个前缀或者后缀。 当前一个事件触发器支持设置一个前缀或者后缀,一个桶支持绑定10个触发器。 例如:对于媒资转码工作流,用户需要对后缀mp4和mov两种格式的视频进行数据处理。用户需要为该给工作
ggerB的条件(比如:两个触发器的前缀和后缀不配置),最终,转码的输出会再次触发工作流,从而导致用户工作流workflowA和workflowB不停的执行,出现“无限循环”。 说明:triggerA和triggerB都不指定前后缀 图5 工作流配置workflowA 图6 工作流配置workflowB
人脸比对 是 人脸识别服务FRS 圆角剪切 是 对象存储服务OBS 普通裁剪 是 对象存储服务OBS 索引剪切 是 对象存储服务OBS 图片水印 是 对象存储服务OBS 文字水印 是 对象存储服务OBS 缩略图 是 对象存储服务OBS 内切圆裁剪 是 对象存储服务OBS 自适应旋转 是
用户在自行开发自定义函数时,函数的输入参数和输出参数需要遵守本节的开发规范。 自定义函数的编译方式请参考FunctionGraph的《开发指南》。 函数输入参数 工作流执行自定义函数时,函数输入参数的JSON格式的结构体和环境变量的定义如下: 表1 函数输入的JSON格式体 名称 是否必选
输出值与测试算子的输出结果相同,表示算子已经完成测试,具备发布条件。具备发布条更重要的是动态参数的存在让用户拥有了与算子交互的接口。 动态参数中的桶名称、对象是由用户输入的参数,而触发器中的桶名称、对象则是面向触发器使用,二者不可混淆。 父主题: 发布下载OBS对象的算子
中配置的参数。这也是算子提供方获取用户配置参数的主要方式,后文将对该参数进行更加详细的介绍。bucketname以及object的值根据测试需要,点击函数测试参数配置。 obsclient形参中的server参数为OBS的endpoint,详情参见地区和终端节点。 不同的regi
您即将访问非华为云网站,请注意账号财产安全