() return ObsClient(access_key_id=ak, secret_access_key=sk, server=obsServer) def trans(command): commands = str(command).split("/"
用户登录并验证权限 新创建的用户登录控制台,切换至授权区域,验证权限:在“服务列表”中选择数据工坊,进入DWR工作流页面,单击右上角“创建工作流”,尝试创建工作流,如果无法创建(假设当前权限仅包含DWR ReadOnlyAccess),表示“DWR ReadOnlyAccess”已生效
EMS内存池需要占用AI节点多少DRAM内存 EMS数据面镜像部署在用户的CCE容器集群上,EMS镜像运行需要占用AI节点的vCPU、内存等资源,同时EMS用于保存推理KVCache需要额外占用AI节点的内存资源。
系统角色 DWR FullAccess 管理员权限,拥有该权限的用户可以操作并使用所有操作。 系统策略 DWR ReadOnlyAccess 只读权限,拥有该权限的用户仅能查看DWR服务数据。
与其他服务的关系 图1 EMS与其他服务的关系 表1 EMS与其他服务的关系 服务名称 EMS服务与其他服务的关系 主要交互功能 云容器引擎 (Cloud Container Engine,CCE) EMS数据面镜像基于CCE云容器引擎服务进行安装部署。
=context.getAccessKey(), secret_access_key=context.getSecretKey(), server='https://obs.cn-north-4.myhuaweicloud.com' #OBS的endpoint
收集运维指标 在CCE集群上安装监控插件,将CCE集群上部署的EMS监控数据上报至AOM实例,便于您随时监控业务。 配置告警 在CCE集群上配置告警规则,出现EMS告警时,能够及时通知您处理告警。
=ak, secret_access_key=sk, server='https://obs.{}.huawei.com'.format(regionid) ) object_size = 0 try:
EMS数据面镜像部署在用户的CCE容器集群上,EMS镜像运行需要占用AI节点的vCPU、内存等资源;同时EMS用于保存推理KVCache需要额外占用AI节点的内存资源。
监控安全风险 您可以通过在CCE集群上安装监控插件,将CCE集群的节点上部署的EMS监控数据上报至应用运维管理 AOM实例,便于您随时监控业务。可以通过配置监控告警规则,在出现EMS告警时,能够及时通知您处理告警。
什么是KVCache KVCache(Key-Value Cache)是用于加速大型语言模型(如Transformer模型)推理过程的技术,KVCache通过缓存Attention机制中的Key和Value矩阵(K和V),以避免在生成新Token时重复计算历史序列的中间结果,减少冗余计算
建议搭配服务 AI开发平台 ModelArts、云容器引擎 CCE、高性能弹性文件服务 SFS Turbo、对象存储服务 OBS。 图1 LLM大语言模型推理
EMS以存代算 以存代算产生的背景 在AI推理过程中,Transformer模型接收用户的问题输入,并通过迭代方式生成相应的回答。每个Transformer层由自注意力模块和前馈网络模块组成。 在自注意力模块中,上下文词元(token)与模型参数结合,生成中间数据K(键)和V(值)
EMS基本概念 KVCache KVCache(Key-Value Cache)是用于加速大型语言模型(如Transformer模型)推理过程的技术,KVCache通过缓存Attention机制中的Key和Value矩阵(K和V),以避免在生成新token时重复计算历史序列的中间结果
“无限循环”触发工作流如何处理? 由于DWR只能按触发器前缀、后缀、事件源类型等条件触发工作流,所以可能存在出现“无限循环”的场景。如果出现“无限循环”,只能先删除桶的事件触发器。主要有以下两个场景: 场景1:触发器源桶和函数执行输出目标桶是同一个桶的无限循环 案例1:使用DWR内置函数触发
什么是弹性内存存储 弹性内存存储(Elastic Memory Service,EMS)是一种以DRAM内存为主要存储介质的云基础设施服务,为LLM推理提供缓存和推理加速。EMS实现AI服务器的分布式内存池化管理,将LLM推理场景下多轮对话及公共前缀等历史KVCache缓存到EMS
自定义函数开发规范 用户在自行开发自定义函数时,函数的输入参数和输出参数需要遵守本节的开发规范。 自定义函数的编译方式请参考FunctionGraph的《开发指南》。 函数输入参数 工作流执行自定义函数时,函数输入参数的JSON格式的结构体和环境变量的定义如下: 表1 函数输入的JSON
发布算子 当完成算子开发、算子在工作流中的测试后,即可在DWR上将算子发布到算子市场。 操作步骤 在DWR控制台的“发布算子”页面,单击界面右上角的“发布公共算子”。 配置算子基本信息。 表1 配置基本信息 参数 说明 算子名称 不能与本用户已有的算子重名。 算子提供方 - 算子描述
发布算子 操作场景 所有开发者均可以创建用于数据处理的算子,审核通过后发布至DWR算子市场,开放给所有华为云用户使用。 当算子被华为云用户使用之后,算子发布者将会获得相应的收益,详情参见计费说明。 算子从API上线、开发、到发布的整个流程如图1所示,本节主要介绍如何使用DWR发布已开发好的算子到算子市场
与其他服务的关系 DWR数据处理的数据源是华为云存储服务,DWR提供的华为云自有算子是通过函数生成,且能力源是华为云数据处理相关的云服务。因此,DWR与其他服务的关系如表1所示。 表1 DWR与其他云服务的关系 服务类别 服务名称 交互关系 存储服务 对象存储服务(Object Storage
您即将访问非华为云网站,请注意账号财产安全