检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
微调任务执行完成后,单击“操作”列的“发布”,发布模型。 步骤三:部署模型 部署模型是将模型部署为在线服务,通过创建部署服务实现,创建成功后,可以对在线服务可以进行预测和调用。本文需要为基座模型(原模型)和微调后的新模型分别创建模型服务。由于在线运行需消耗资源,请确保账户未欠费。 在AI原生应用引擎的左侧导航栏选择“模型中心
仅适用于使用“上传卡片”方式新建的卡片。 编辑卡片 卡片形式:在需要编辑的卡片上,单击“编辑”。 列表形式:在对应的“操作”列下,单击“编辑”。 适用于使用“在线构建”、“模板构建”方式新建的卡片。 查看卡片详情 卡片形式:单击“更多 > 详情”,可以查看卡片详情。 列表形式:在对应的“版本号”列下,单击版本号。
计费项说明 适用的计费模式 计费公式 ChatGLM3-6B大模型服务API在线调用 根据实际输入和输出tokens总量计费,平台提供算力支持。 按需计费 千tokens * 每千tokens单价 大模型微调服务API在线调用-SFT局部调优 根据实际输入和输出tokens总量计费,平台提供算力支持。
创建及管理Agent 模型中心 模型中心是集中管理用户微调后的模型、模型微调流水线(即模型微调任务),以及调测模型。 支持区域: 华北-北京四 创建及管理模型 创建模型微调流水线 调测模型 查看模型调用记录 知识中心 数据是模型训练(含数据标注)以及知识库的基础,在整个模型、知识库中起
负载均衡 负载均衡(Software/Server Load Balancer,简称SLB)基于Nginx/OpenResty构建,作为业务前置的流量开关,提供反向代理;负载均衡、路由分发、灰度分流、限流降级、访问控制、监控告警等能力。 服务发现 服务发现(NUWA Cloud Map,简称Cloud
M3-6B服务、大模型调优服务API在线调用。 套餐包单价+按需计费(ChatGLM3-6B服务、大模型调优服务API在线调用) 知识库容量:50GB 智能应用运行时引擎(20实例):2个 ChatGLM3-6B服务、大模型调优服务API在线调用根据实际输入和输出tokens总量计费,计费规则请参考按需计费
}}中。 引用模板提示语内容: 单击输入框右侧的“引用模板”选择我创建的、我收藏的或平台预置的提示语模板。 在“在线优化”页面,参照表2进行参数配置。 表2 提示语在线优化参数说明 参数名称 参数说明 变量标识符 可选择以下符号标识提示语内容中的变量。 大括号{} 双大括号{{}}
在AI原生应用引擎的左侧导航栏选择“知识中心 > 提示语”,选择“我创建的”页签。 在提示语列表中,单击操作列的“优化”,参照表1进行参数配置。 表1 在线优化提示语参数说明 参数名称 参数说明 变量标识符 可选择以下符号标识提示语内容中的变量。 大括号{} 双大括号{{}} 中括号[] 双中括号[[]]
新建及管理我的卡片 新建卡片分类为卡片分组 使用在线构建方式新建卡片 使用模板构建方式新建卡片 使用离线构建方式新建卡片 管理我的卡片 父主题: 在运营中心自定义运营看板
说明 上下线微服务实例 在实例列表中,单击操作列的“上线”或“下线”,具体介绍请参见调整微服务实例状态。 设置微服务实例为拨测状态 在实例列表中,单击操作列的“拨测”。 添加实例标签 在实例列表中,单击操作列的“标签管理”。 父主题: 查看和管理注册到CloudMap的微服务实例
说明 上下线微服务实例 在实例列表中,单击操作列的“上线”或“下线”,具体介绍请参见调整微服务实例状态。 设置微服务实例为拨测状态 在实例列表中,单击操作列的“拨测”。 添加实例标签 在实例列表中,单击操作列的“标签管理”。 父主题: 查看和管理注册到CloudMap的微服务实例
超出流控值,则触发限流,用户的请求会因为流控而失败。 无限制 10次/秒 50次/秒 100次/秒 200次/秒 在模型调测区域调测模型。 调测文本对话类型模型,请参考表3配置参数。 表3 文本对话类型模型调测参数说明 参数名称 参数说明 输出方式 可选非流式、流式。二者区别如下: 非流式:调用大语言模型
模型调测时,无法选择模型服务商API是什么原因? 对模型服务商API调测前,需要先设置鉴权,具体操作请参见如何对模型供应商提供的模型服务设置鉴权。 父主题: AI原生应用引擎
可靠性、可运维、安全多项公共能力内置。 云原生Ops需围绕服务部署、事件处理、业务连续性流程,实现自动化和智能化运维能力建设支持业务全链路压测演练。 支撑华为内外部业务,构筑统一的SaaS底座,平台长期持续演进,确保先进性和生命力。 AI原生应用开发 痛点 管好大模型难:大模型百
对处于保留期的按需计费资源执行任何操作。 保留期到期后,如果您仍未支付账户欠款,那么ChatGLM3-6B大模型服务API在线调用、大模型微调服务API在线调用-SFT局部调优将无法再使用。 图1 按需计费AI原生应用引擎资源生命周期 华为云根据客户等级定义了不同客户的宽限期和保留期时长。
营中心指标增量包-100个指标 预置模型服务调用 API SaaS:ChatGLM3-6B大模型服务API在线调用 自定义模型训练 API SaaS:大模型微调服务API在线调用-SFT局部调优 说明: 按需仅适用于AppStage的AI原生应用引擎。 变更计费模式 不支持。 不支持。
模型管理 支持通过API接入模型服务,同时支持将平台预置模型进行微调后,部署为模型服务,为检验模型的准确性及反应效果,您可以通过调测模型能力进行体验调测,确保模型能够在实际应用中正常运行。 提示语管理 平台预置了丰富的提示语模板,并支持用户自创建提示语模板。同时,平台提供的提示语优
负载均衡”。 选择左侧导航栏的“监听管理”。 在监听管理页面,单击监听名称。 在监听详情页面选择“后端服务器”页签,检查该后端服务器集群中的节点是否都在线,如果都下线会报此错误。 父主题: SLB同步异常相关问题
生费用,请在自动续费扣款日(默认为到期前7日)之前关闭自动续费。 按需计费资源 对于按需计费模式的资源,例如按需计费的大模型微调服务API在线调用-SFT局部调优,如果不再使用这些资源且需停止计费,请删除相应资源。 退订包年包月资源以停止计费 登录AppStage控制台,默认进入AppStage控制台“总览”页。
微服务一般会部署多个实例,负载均衡控制微服务消费者访问微服务提供者的多个实例的策略,以达到流量均衡的目的。策略包括轮询、随机、响应时间权值、会话粘滞等。 限流 用于控制访问微服务的请求量大小,避免由于流量冲击对系统造成破坏。 故障隔离 - 降级 用于控制微服务调用其他微服务的时候,强制返