检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
准备Notebook ModelArts Notebook云上云下,无缝协同,更多关于ModelArts Notebook的详细资料请查看Notebook使用场景介绍。本案例中使用ModelArts的开发环境Notebook部署推理服务进行调试,请按照以下步骤完成Notebook的创建。
推理模型量化 使用AWQ量化 使用SmoothQuant量化 使用kv-cache-int8量化 使用GPTQ量化 使用llm-compressor工具量化 父主题: 主流开源大模型基于Server适配PyTorch NPU推理指导(6.3.909)
准备Notebook ModelArts Notebook云上云下,无缝协同,更多关于ModelArts Notebook的详细资料请查看Notebook使用场景介绍。本案例中使用ModelArts的开发环境Notebook部署推理服务进行调试,请按照以下步骤完成Notebook的创建。
场景介绍 方案概览 本文档利用训练框架PyTorch_npu+华为自研Ascend Snt9B硬件,为用户提供了常见主流开源大模型在ModelArts Lite DevServer上的预训练和全量微调方案。训练框架使用的是ModelLink。 本方案目前仅适用于部分企业客户,完成
场景介绍 方案概览 本文档利用训练框架LlamaFactory+华为自研Ascend Snt9B硬件,为用户提供了常见主流开源大模型在ModelArts Lite DevServer上的微调方案,包括SFT全参微调、LoRA微调、DPO训练方案。 DPO(Direct Preference
场景介绍 方案概览 本文档利用训练框架LlamaFactory+华为自研Ascend Snt9B硬件,为用户提供了常见主流开源大模型在ModelArts Lite DevServer上的不同训练阶段方案,包括指令监督微调、DPO偏好训练、RM奖励模型训练、PPO强化训练方案。 DPO(Direct
场景介绍 方案概览 本文档利用训练框架PyTorch_npu+华为自研Ascend Snt9B硬件,为用户提供了常见主流开源大模型在ModelArts Lite Server上的预训练和全量微调方案。训练框架使用的是ModelLink。 本方案目前仅适用于部分企业客户,完成本方案
5 CPU, 1G Memory", "custom": false } ] } 状态码 状态码 描述 200 操作成功。 400 错误的请求。 404 请求对象不存在。 500 内部错误。 错误码 错误码格式为:SVCSTG.00100
Permission denied: '/opt/huawei/release/lf_test/SLB/ 问题现象 SLB部署失败,日志详细信息提示如下: [Errno 13] Permission denied: '/opt/huawei/release/lf_test/SLB/'
配置泳道组流量入口网关路由(基于内容配置) 根据实际业务需要,您可以基于内容配置泳道组流量入口网关路由。 使用限制 仅灰度泳道支持基于内容配置网关路由。 前提条件 待操作泳道组已创建成功并关联流量入口网关,请参考创建泳道组。 待操作泳道组下已创建灰度泳道,请参考创建灰度泳道。 配
创建弹性伸缩-HPA策略 弹性伸缩-HPA(Horizontal Pod Autoscaling)是Kubernetes内置组件,实现Pod水平自动伸缩的功能。在Kubernetes社区HPA功能的基础上,增加了应用级别的冷却时间窗和扩缩容阈值等功能。 使用限制 组件必须为容器部
设置微服务引擎备份与恢复 ServiceStage控制台提供备份与恢复功能,可对微服务引擎的数据,包括微服务、契约、配置、账号角色信息进行备份与恢复。 您可自定义备份策略,对微服务引擎进行定期备份,也支持手动对微服务引擎进行备份。 约束与限制 每个微服务引擎专享版最多有15个成功
修改弹性伸缩-HPA策略 您可以根据实际业务需要,编辑已设置好的弹性伸缩-HPA策略,重新设置策略参数。 前提条件 已设置组件弹性伸缩-HPA策略,请参考创建弹性伸缩-HPA策略。 修改弹性伸缩-HPA策略 登录ServiceStage控制台。 选择以下任意方式进入组件“伸缩”页面:
删除Metrics Server 本章节指导您删除Kubernetes类型环境下已安装的Metrics Server插件。 删除Metrics Server插件,会删除如下表所示的内容。 名称 说明 工作负载 安装Metrics Server时选择的CCE集群kube-syste
安装Metrics Server Metrics Server是集群核心资源监控数据的聚合器。安装本插件后,可创建HPA策略,具体请参考创建弹性伸缩-HPA策略。 Metrics Server社区官方项目及文档请参考:https://github.com/kubernetes-sigs/metrics-server。
系统管理概述 同一个微服务引擎可能会有多个用户共同使用,而不同的用户根据其责任和权限,需要具备不同的微服务引擎访问和操作权限。 开启了“安全认证”的微服务引擎专享版,通过微服务控制台提供了基于RBAC(Role-Based Access Control,基于角色的访问控制)的系统管理功能。
解绑LTS日志组 已关联的LTS日志组如果不再使用,可以解绑。 前提条件 组件已关联LTS日志组,请参考关联LTS日志组。 解绑LTS日志组 登录ServiceStage控制台。 选择以下任意方式进入组件“日志”页面: 在“应用管理”页面,单击组件所属应用名称,在“组件列表”单击待操作组件名称,在左侧导航栏选择“运维
准备工作 准备资源 准备数据 准备权重 准备代码 准备镜像 准备Notebook(可选) 父主题: 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导(6.3.910)
LoRA微调训练 前提条件 已上传训练代码、训练权重文件和数据集到OBS中,具体参考代码上传至OBS。 Step1 创建训练任务 创建训练作业,并自定义名称、描述等信息。选择自定义算法,启动方式自定义,以及选择上传的镜像。 代码目录选择:OBS桶路径下的 llm_train/AscendSpeed
准备Notebook ModelArts Notebook云上云下,无缝协同,更多关于ModelArts Notebook的详细资料请查看开发环境介绍。 本案例中的训练作业需要通过SFS Turbo挂载盘的形式创建,因此需要将上述数据集、代码、权重文件从OBS桶上传至SFS Turbo中。