数智融合计算服务-华为云

数智融合计算服务-创建模型:约束与限制

约束与限制创建模型的通用约束如下：需要是Fabric支持的基模型，否则不支持，基模型列表如下：表1 基模型列表基模型类型描述 QWEN_2_72B Qwen2在包括语言理解、生成、多语言能力、编码、数学和推理在内的多个基准测试中，超越了大多数以前的开放权重模型，与专有模型表现出竞争力，参数规模为720亿。 GLM_4_9B GLM-4-9B是智谱AI推出的最新一代预训练模型GLM-4系列中的开源版本。在语义、数学、推理、代码和知识等多方面的数据集测评中表现出较高的性能，参数规模为90亿。模型格式需要为safetensors的格式。safetensors是Huggingface推出的一种可靠、易移植的机器学习模型存储格式，用于安全地存储Tensor，而且速度快。样例如下：图1 模型文件样例

数智融合计算服务创建我的推理服务进行推理

数智融合计算服务-创建工作空间:操作步骤

操作步骤登录华为云控制台后，在页面左上角单击，在服务列表中选择“Fabric”。图1 Fabric服务单击“创建工作空间”，参照创作工作空间填写页面参数说明输入必要参数后，单击“直接创建”。创建工作空间完成后会返回工作空间管理台界面。图2 创建工作空间表1 创作工作空间填写页面参数说明参数说明工作空间名称请输入工作空间名称，同一账号下集群不可重名。工作空间描述可选，请输入工作空间描述。 Metastore 可选，需要绑定的lakeformation实例。企业项目选择某个企业项目后，集群和集群安全组将会创建在该企业项目下。您可以通过企业项目服务（EPS）管理集群及其他资源（节点、ELB、以及节点的安全组等）。标签可选，通过为资源添加标签，可以对资源进行自定义标记，实现资源的分类。您可以在TMS中创建“预定义标签”，预定义标签对所有支持标签功能的服务资源可见，通过使用预定义标签可以提升标签创建和迁移效率。具体请参见创建预定义标签。标签键只能包含中文、英文字母、数字、空格和特殊字符(-_.:=+@)，且首尾不能包含空格，不能以_sys_开头，长度不超过128个字符。资源标签键不可以为空。标签值只能包含中文，英文字母、数字、空格和特殊字符(-_.:/=+@)，长度不超过255个字符。资源标签值可以为空。单击已创建的工作空间中的“进入工作空间”，弹出用户协议时，用户可查看声明协议，确认后单击“同意授权”，后续即可正常进入创建好的工作空间。

数智融合计算服务准备工作

数智融合计算服务-Fabric使用流程

Fabric使用流程 Fabric平台提供了一个serverless化的从数据到模型部署的AI全流程开发体验，针对每个环节，其使用是相对独立自由的。本章节梳理了Fabric使用流程详解，您可以选择其中一种方式完成AI开发。表1 使用流程说明流程说明详细指导创建工作空间创建一个工作空间，后续所有的能力都承载在工作空间中。创建工作空间创建端点创建一个端点，根据业务类型不同，创建不同类型的端点。创建推理端点注册模型用户可以将存储在OBS的微调模型文件，在模型管理的界面注册为自己的微调模型。创建模型部署服务 Fabric支持部署用户基于基模型微调的微调模型创建推理服务访问服务微调模型部署完成后，用户可以使用Fabric提供的推理接口直接进行推理。使用推理服务进行推理

数智融合计算服务

数智融合计算服务-查看指标:操作步骤

操作步骤登录应用运维管理平台。选择指标预览，指标源选择Prometheus_ AOM _Default。图1 配置指标源全量指标中输入指标名称进行查询。表1 监控指标指标名称描述 fabric_dpu_cpu_usage 该指标用于统计Ray集群head和worker的cpu资源使用率。单位：百分比。 fabric_dpu_mem_usage 该指标用于统计Ray集群head和worker的内存资源使用率。单位：百分比。

数智融合计算服务 Ray集群管理

数智融合计算服务-镜像包管理:新增镜像包版本

新增镜像包版本在“镜像包管理”页面的“操作”列，单击目标镜像包对应的“查看版本列表”。在“当前镜像包版本列表”页面，单击“新增版本”。在新增镜像包版本页面，配置相关信息，然后单击“确认”。界面参数说明请参见创建镜像包版本参数说明。图4 创建镜像包版本表2 创建镜像包版本参数说明参数参数说明版本名称镜像包支持有多个版本，请根据当前创建信息填入一个版本名称。镜像包版本需要和选择的OBS文件的包版本号一致。路径当前创建版本所在的OBS路径。请选择到包含metadata.yaml文件的父级目录。

数智融合计算服务 Ray场景

数智融合计算服务-在试验场进行推理:约束与限制

约束与限制使用公共推理服务时的通用约束限制如下： Token配额约束：每种公共推理服务都有免费配额限制，超过配额不可用，也无法再购买。每种公共推理服务的配额为当前用户在当前局点下所有工作空间共享；时间约束：有效期为服务开通90天内，超过时间则失效。同一个推理服务在不同工作空间下面开通，以首次开通为准。不同的模型有不同的上下文长度约束，请见表公共推理服务。不保证SLA，如果想要更高的性能，建议创建自己的推理服务进行推理；

数智融合计算服务

数智融合计算服务-查看公共推理服务

查看公共推理服务推理端点试用期内，可以直接使用公共推理服务进行推理。目前的公共推理服务是基于开源大模型部署的，列表如下（实际的推理服务以服务为准）：表1 公共推理服务名称描述免费额度最大上下文长度 prompt模板长度最大输出token QWEN_2_72B Qwen2在包括语言理解、生成、多语言能力、编码、数学和推理在内的多个基准测试中，超越了大多数以前的开放权重模型，与专有模型表现出竞争力。该模型参数规模为720亿。公测期间提供100万token免费配额，超过配额不可用，也没办法再购买；有效期为服务开通90天内，超过时间则失效。 16k 23 16360 父主题：用公共推理服务进行推理

数智融合计算服务用公共推理服务进行推理

数智融合计算服务-大模型推理场景介绍

大模型推理场景介绍常见的大模型包括大语言模型、多模态大模型、文生图大模型等，其中大语言模型支持文本生成，可以根据用户输入的提示词（prompt）进行推理，可广泛应用于以下领域：问答系统：大语言模型可以处理自然语言，理解用户的意图，回答用户提出的问题。内容生产：大语言模型可以基于给定的文本或主题生成连贯的文章、故事、对话等。文本摘要：大语言模型可以对长文本进行摘要，提取关键信息，方便用户快速了解文本内容。机器翻译：大语言模型可以处理多种语言之间的翻译任务，实现跨语言交流。当前Fabric提供以下两种方式进行推理：用公共推理服务进行推理：Fabric提供基于开源大语言模型（Qwen2、GLM4等）的公共推理服务，用户可以在推理端点查看公共端点，选择自己想用的端点进行开通，然后就可以在试验场使用公共推理服务。该方式无需部署，开通后即可使用常见的开源大模型进行推理。创建我的推理服务进行推理：Fabric支持用户创建自己专属的推理服务进行部署，用户可以上传自己的大语言模型，也可以使用公共的大语言模型进行部署。在Fabric模型页面创建的模型是仅自己可见，其他用户不可见。用户可以查看和删除模型，也可以对模型版本进行管理，包括新增、查看和删除模型版本。父主题：大模型推理场景

数智融合计算服务大模型推理场景

数智融合计算服务-产品优势

产品优势 Fabric服务具有以下优势：数智一站式开发，提供统一的开发体验一个工作空间，提供多种工作负载，包含SQL、基于Ray的数据工程、模型推理。基于LakeFormation统一管理结构化、半结构化、非结构化数据，数智开发全流程，一份元数据和一份权限控制。数据+AI共享一份数据，客户无需进行数据复制。开箱即用，资源弹性，按需使用预置开源主流三方大模型的推理服务，客户可直接调预置推理服务API下发文本对话等任务，无需购买资源，按需付费。推理服务支持自动扩缩。全托管Ray支持Pod级自动扩缩，应对客户请求波峰压力，实现资源动态分配。开源生态基于昇腾生态提供开源Ray的能力，并在开源Ray的能力上提供Redis高可靠。 Ray dashboard提供可视化监控、故障排查、性能调优以及管理应用运行情况。

数智融合计算服务

数智融合计算服务-变更配置

变更配置当前Fabric服务计费项仅支持修改RAY资源，其他业务场景都是按使用量按需计费，不涉及订单变更流程，且暂时不支持计费方式变更，因此变更配置只涉及Ray资源大小变更场景。修改Ray资源大小对费用影响如表1所示：表1 费用影响当前计费模式变更场景对费用的影响按需 RAY资源数量变更（升配/降配）变更成功后，新的计费方式将立即生效。包年包月 RAY资源数量增加（补差价升配）升配后新资源数量将在原来已有的时间周期内立即生效。需按照与原规格的价格差异，结合已使用的时间周期，补上差价。例如：（以下价格仅作示例，实际价格以价格详情为准）客户于2024/11/1 购买了数量为1，规格为fabric.compute.dpu.d1x的RAY资源，购买时长为1个月，此时价格为18.4元/月，客户使用余额支付18.4元，实付金额为18.4元。客户在2018/11/24 将Ray资源数量升级为5，价格为92元/月。这时，剩余天数为 30 - 24 = 6天，升配费用=92 / 30 * 6 - 18.4 / 30 * 6 = 14.72元。了解更多变更资源计费信息，请参见变更资源费用说明。包年包月 RAY资源数量减少（即时降配）降配成功后新的资源大小将在原来已有的时间周期内立即生效。按照与原规格的价格差异，结合已使用的时间周期，退款差价。例如：（以下价格仅作示例，实际价格以价格详情为准）客户于2024/11/1 购买了数量为5，规格为fabric.compute.dpu.d1x的RAY资源，购买时长为1个月，此时价格为18.4元/月，客户使用余额支付92元，实付金额为92元。客户在2018/11/24 将Ray资源数量降级为4，价格为18.4元/月。这时，剩余天数为 30 - 24 = 6天，降配退差价=92 / 30 * 6 - 18.4 / 30 * 6 = 14.72元。了解更多变更资源计费信息，请参见变更资源费用说明。父主题：计费说明

数智融合计算服务

数智融合计算服务-计费模式

计费模式 Fabric服务提供包年包月、按需计费两种计费模式供您灵活选择。包年包月：一种预付费模式，即先付费再使用，按照订单的购买周期进行结算。购买周期越长，享受的折扣越大。一般适用于计算资源需求量长期稳定的成熟业务。按需：一种后付费模式，即先使用再付费，按照ModelArts计算资源的实际使用时长计费，秒级计费，按小时结算。按需计费模式允许您根据实际业务需求灵活地调整资源使用，无需提前预置资源，从而降低预置过多或不足的风险。一般适用于资源需求波动的场景，可以即开即停。详细的计费区别请参考表1。表1 Fabric服务计费模式计费模式付费方式计费周期适用计费项包年包月预付费按照订单的购买周期结算。按订单的购买周期计费。 RAY资源。按需后付费按照云服务器实际使用时长计费。按照资源实际使用量，每小时出话单扣费。 RAY资源、MU时。 Fabric服务不同业务场景的计费模式如图1所示。图1 Fabric计费模式父主题：计费说明

数智融合计算服务

数智融合计算服务-什么是Fabric:产品架构

产品架构 Fabric提供高性能、高可靠、低时延、低成本的海量存储系统，与华为云的大数据服务组合使用，可大幅度降低成本，帮助企业简单快捷地管理大数据。分布式Ray Fabric支持分布式计算框架RAY，来帮助客户解决规模日益增大的数据处理和机器学习/深度学习任务对分布式计算的问题，也为数据工程和机器学习工程提供统一的完整Workflow。Fabric Ray支持Ray-Data、Ray-Train、Ray-Serve模块，分别满足分布式数据预处理、分布式训练、分布式模型推理服务的应用场景。在线推理 Fabric提供自研的高性能弹性推理引擎，支持客户基于默认的推理服务下发推理作业，也支持客户独立部署自定义模型。异构资源管理 Fabric支持CPU+NPU资源统一纳管、统一资源分配；资源调度粒度支持容器级和Actor级，并且支持安全沙箱来实现资源隔离、可靠容错。多语义缓存加速 Fabric提供跨引擎、多模态、多语义加速，例如数据缓存、模型缓存、CheckPoint缓存。图1 产品架构图

数智融合计算服务

数智融合计算服务-停止计费

停止计费在查看账单后，如果您需要对某些资源停止计费可参考以下步骤：在账单中获取资源ID或资源名称等其他资源信息。根据上一步的信息，在云服务的控制台找到云服务资源。将资源停止计费。具体操作如下： RAY资源：停止RAY资源的计费，需要删除/退订RAY资源，删除后可能导致已有的RAY集群不可用。推理MU时：删除推理端点下的推理服务实例或者删除推理端点后，则不会产生费用。父主题：计费说明

数智融合计算服务

数智融合计算服务-计费项

计费项 Fabric服务根据RAY、推理业务场景有不同的策略进行计费。详细的计费项及说明请参考表1。每个计费项的详细价格请参考产品价格详情。表1 计费项信息计费项计费说明 RAY资源此处根据您创建的RAY资源规格和数量按照使用时间进行计费，不同的数据处理单元或AI计算单元规格的价格不同，支持包周期和按需付费两种模式。模型算力单元时此处根据您创建推理端点后部署模型实例所消耗的推理模型单元时长进行收费，支持按需付费。按照推理端点下实际的模型实例数量* 算力单元资源数量 * 使用时长按照秒级上报使用量，不同基模型对应的算力单元要求参考公共模型。父主题：计费说明

数智融合计算服务

数智融合计算服务-计费样例

计费样例样例1：Fabric服务RAY资源-计费说明 RAY资源的“按需计费”模式都是秒级计费，Fabric产品价格详情中标出了每小时价格，您可以将每小时价格除以3600，即得到每秒价格。示例，某一RAY资源按需实例，fabric.ray.dpu.d1x规格价格为0.2元/小时，购买数量为5的按需实例根据规格数量 * 实际使用时长、按秒计费。使用30分钟，根据实际使用时长按秒计费：(0.2/3600)*5*30*60=0.5元。使用1小时，根据实际使用时长按秒计费：(0.2/3600)*5*60*60=1元。样例2：Fabric服务模型算力单元MU时-计费说明 MU时的“按需计费”模式都是秒级计费，Fabric产品价格详情中标出了每小时价格，您可以将每小时价格除以3600，即得到每秒价格。示例，某一基模型为LLAMA3_8B推理端点实例，每个实例部署消耗2MU算力，假设MU时价格为30.0元/小时。根据部署模型实例数量 * MU换算比例 * 实际使用时长，按秒计费。使用30分钟，部署1个模型服务实例且数量无变化，根据实际使用时长按秒计费：(1/3600)*1*2*30*60=30元。使用1小时，其中一段15分钟时间内，服务实例数为2，剩余时间内实例数为1，根据实际使用时长按秒计费：(30/3600)*1*2*45*60 + (30/3600)*2*2*15*60=75元。父主题：计费说明

数智融合计算服务

云服务器内容精选

数智融合计算服务

7*24

备案

专业服务

退订

建议反馈

售前咨询热线