检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
查看微服务引擎配置条目配额 本章节指导您查看微服务引擎的配置条目配额及配额使用情况。 该章节内容只适用于微服务引擎版本为2.x。 查看微服务引擎配置条目配额 登录ServiceStage控制台,选择“微服务引擎 > 引擎实例”。 在页面上方“微服务引擎”下拉列表,选择待查看的微服务引擎。
微服务引擎转包周期 计费模式为按需计费的用户,可以选择“转包周期”,变更实例计费模式为包年/包月。 实例从按需变为包周期计费,只是改变计费方式,不会影响应用。 状态为“已冻结”、“删除中”的实例,不支持转包周期。 微服务引擎转包周期 登录ServiceStage控制台,选择“微服务引擎
关闭弹性伸缩-HPA策略 您可以根据实际业务需要,关闭不再使用的弹性伸缩-HPA策略。 关闭弹性伸缩-HPA策略后,所有数据将清空,请谨慎操作。 前提条件 已创建组件弹性伸缩-HPA策略,请参考创建弹性伸缩-HPA策略。 删除弹性伸缩-HPA策略 登录ServiceStage控制台。
升级Metrics Server 已安装的Metrics Server插件版本低于当前最新版本时,您可以升级插件到当前最新版本。 升级Metrics Server插件版本过程中由于无法正常进行弹性伸缩,如果操作过程中流量异常可能会导致组件服务异常。 前提条件 待操作Metrics
重启Metrics Server 您可以根据实际业务需要,重新启动Metrics Server负载进程。 启动Metrics Server负载过程中由于无法正常进行弹性伸缩,如果操作过程中流量异常可能会导致组件服务异常。 前提条件 待操作Metrics Server插件已经安装,请参考安装Metrics
在SLB中创建和管理流控服务 在SLB中创建流控服务 在SLB中配置负载均衡OLC服务 在SLB中发布负载均衡OLC服务 在SLB中导出OLC规则的IAC信息 父主题: 配置运行时引擎负载均衡
在WiseDBA中创建和管理Schema Schema及Keyspace概念介绍 在WiseDBA中创建Database 在WiseDBA中创建Schema 在WiseDBA中同步Schema 在WiseDBA中下线及还原Schema 在WiseDBA中永久删除Schema 父主题:
推理模型量化 使用AWQ量化 使用SmoothQuant量化 使用kv-cache-int8量化 使用GPTQ量化 使用llm-compressor工具量化 父主题: 主流开源大模型基于Server适配PyTorch NPU推理指导(6.3.911)
部署推理服务 本章节介绍如何使用vLLM 0.6.3框架部署并启动推理服务。 前提条件 已准备好Lite k8s Cluster环境,具体参考准备环境。推荐使用“西南-贵阳一”Region上的Cluster和昇腾Snt9b资源。 安装过程需要连接互联网git clone,确保集群可以访问公网。
准备Notebook ModelArts Notebook云上云下,无缝协同,更多关于ModelArts Notebook的详细资料请查看Notebook使用场景介绍。本案例中使用ModelArts的开发环境Notebook部署推理服务进行调试,请按照以下步骤完成Notebook的创建。
LoRA微调训练 前提条件 已上传训练代码、训练权重文件和数据集到OBS中,具体参考代码上传至OBS。 Step1 创建训练任务 创建训练作业,并自定义名称、描述等信息。选择自定义算法,启动方式自定义,以及选择上传的镜像。 代码目录选择:OBS桶路径下的llm_train/AscendSpeed代码目录。
查看日志和性能 单击作业详情页面,则可查看训练过程中的详细信息。 图1 查看训练作业 在作业详情页的日志页签,查看最后一个节点的日志,其包含“elapsed time per iteration (ms)”数据,可换算为tokens/s/p的性能数据。 吞吐量(tokens/s/p):global
场景介绍 方案概览 本文档利用训练框架LlamaFactory+华为自研Ascend Snt9B硬件,为用户提供了常见主流开源大模型在ModelArts Lite DevServer上的不同训练阶段方案,包括指令监督微调、DPO偏好训练、RM奖励模型训练、PPO强化训练方案。 DPO(Direct
准备工作 准备环境 准备代码 准备数据 准备镜像环境 父主题: 主流开源大模型基于Lite Cluster适配PyTorch NPU训练指导(6.3.910)
查看日志和性能 单击作业详情页面,则可查看训练过程中的详细信息。 图1 查看训练作业 在作业详情页的日志页签,查看最后一个节点的日志,其包含“elapsed time per iteration (ms)”数据,可换算为tokens/s/p的性能数据。 吞吐量(tokens/s/p):global
场景介绍 方案概览 本文档利用训练框架PyTorch_npu+华为自研Ascend Snt9B硬件,为用户提供了常见主流开源大模型在ModelArts Lite Server上的预训练和全量微调方案。训练框架使用的是ModelLink。 本方案目前仅适用于部分企业客户,完成本方案
训练脚本说明 训练启动脚本说明和参数配置 训练的数据集预处理说明 训练中的权重转换说明 训练tokenizer文件说明 父主题: 主流开源大模型基于Lite Cluster适配PyTorch NPU训练指导(6.3.911)
通过Function Calling扩展大语言模型对外部环境的理解 本示例将展示如何定义一个获取送货日期的函数,并通过LLM来调用外部API来获取外部信息。 操作步骤 设置Maas的api key和模型服务地址。 import requests from openai import
如果出现“当前组织的邀请功能已停用”界面,单击“启用”。 进入邀请成员界面后,即可获得企业邀请码、企业链接及企业二维码,如图1所示。 图1 企业邀请码、企业链接、企业二维码 在“ 邀请设置”区域,可以进一步对邀请有效期进行设置。 图2 邀请设置 进入“注册完成按钮配置”,您可以单击操作列的“
购买步骤参考购买资源,绑定具体操作如下: 在盘古辅助制药平台单击右上角“账号名>资源中心”进入CSS资源界面。 单击“绑定”进入绑定界面,选择要绑定的CSS集群名称、填写管理员账户名和管理员密码。 单击“测试链接”验证用户名或密码无误后单击“确定”,即可完成绑定(可选项)。您也