检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
工具介绍及准备工作 本章节主要介绍针对LLaMAFactory开发的测试工具benchmark,支持训练、性能对比、下游任务评测、loss和下游任务对比能力。对比结果以excel文件呈现。方便用户验证发布模型的质量。所有配置都通过yaml文件设置,用户查看默认yaml文件即可知道最优性能的配置
将数据预热到SFS Turbo 训练任务开始前可通过数据预热功能将文件元数据和数据内容全部从OBS导入到SFS Turbo高性能文件存储中,数据预热功能的具体操作请参考创建SFS Turbo 和 OBS 之间的联动任务。 在ECS服务器挂载SFS Turbo已经将SFS Turbo
使用kv-cache-int8量化 kv-cache-int8是实验特性,在部分场景下性能可能会劣于非量化。当前支持per-tensor静态量化、per-tensor+per-head静态量化以及per-token,支持kv-cache-int8量化和FP16、BF16、AWQ、smoothquant
Prefix Caching 什么是Prefix Caching 在LLM推理应用中,经常会面临具有长system prompt的场景以及多轮对话的场景。长system prompt的场景,system prompt在不同的请求中但是相同的,KV Cache的计算也是相同的;多轮对话场景中
multi-lora 什么是multi-lora LoRA(Low-Rank Adaptation)是一种适用于大模型的轻量化微调技术方法。原理是通过在模型层中引入低秩矩阵,将大模型的权重降维处理,来实现高效的模型适配。相比于传统的微调方法,LoRA不仅能大幅减少所需的训练参数,还降低了显存和计算成本
因APIG(API网关)限制,平台每次请求预测的时间不超过40秒。 前提条件 已经获取用户Token、预测文件的本地路径、在线服务的调用地址和在线服务的输入参数信息。 用户Token的获取请参见获取Token认证。
GPU服务器上配置Lite Server资源软件环境 场景描述 本文旨在指导如何在GPU裸金属服务器上,安装NVIDIA、CUDA驱动等环境配置。由于不同GPU预置镜像中预安装的软件不同,您通过Lite Server算力资源和镜像版本配套关系章节查看已安装的软件。下面为常见的软件安装步骤
在Lite Cluster资源池上使用Snt9B完成分布式训练任务 场景描述 本案例介绍如何在Snt9B上进行分布式训练任务,其中Cluster资源池已经默认安装volcano调度器,训练任务默认使用volcano job形式下发lite池集群。训练测试用例使用NLP的bert模型
在SLB中进行降级配置 降级配置是在业务高峰期时,需要临时减少对于目标服务的访问,达到降低目标服务负载;或者屏蔽对于非关键服务的访问,保持本服务的核心处理能力的治理措施。降级执行流程如图1所示。 图1 降级执行流程 前提条件 需要具备AppStage服务运维岗位权限或运维管理员权限
在SLB中导出OLC规则的IAC信息 由于OLC规则比较复杂,推荐在SLB管理台上配置好部分规则后导出IAC包,然后在导出的文件基础上进行修改。 使用IAC配置中心规则的功能只支持配置在SLB管理台创建的OLC服务,不支持在Cloud Map管理台创建的OLC服务。 导出IAC信息
复制和迁移SLB配置信息 导出SLB实例的所有信息并在新增实例配置页面快速导入,可以实现配置信息的复制和迁移。 前提条件 需要具备AppStage服务运维岗位权限或运维管理员权限,权限申请操作请参见申请权限。 导出所有信息 导出SLB实例的所有信息,包括SLB节点信息、nginx.conf
导入导出应用中对象的元数据 将当前系统中的对象元数据导出,然后在其他环境或账号导入,实现数据迁移和备份,如迁移旧的元数据和数据去新的环境,保持对象的一致和兼容。从而实现在不同的账号间或环境间的数据迁移,避免重复开发和不兼容的开发。 导出对象元数据 在AstroZero服务控制台,单击
使用发布单实现组件跨可用区批量升级 本章节指导您基于ServiceStage发布管理的批量升级实现组件跨可用区的升级,并指定在不同可用区组件的升级顺序。 操作步骤 登录ServiceStage控制台。 选择“发布管理 > 创建发布单”。 填写“发布单名称”(例如:release-upgrade
查看微服务版本信息 本文介绍如何查看及删除微服务版本信息。 查看微服务版本信息 进入AppStage运维中心。 在顶部导航栏选择服务。 单击,选择“微服务开发 > 服务发现”。 选择左侧导航栏的“服务目录 > 一方服务”。 选择“微服务列表”页签,单击微服务列表中的微服务名。 选择左侧导航栏的
在WiseDBA中变更数据库实例规格 可以根据业务需要对包年/包月和按需实例的规格进行变更,规格指实例的CPU/内存。 使用须知 此操作预计耗时约10分钟,程序可能会有10s以内的中断,请自行评估影响。 前提条件 需要具备AppStage服务运维岗位权限或运维管理员权限,权限申请操作请参见申请权限
在SLB中配置负载均衡实例共享 AppStage的资源按照服务级隔离,跨服务使用负载均衡实例时,需要配置共享。 前提条件 需要具备AppStage服务运维岗位权限或运维管理员权限,权限申请操作请参见申请权限。 配置SLB实例共享 进入AppStage运维中心。 在顶部导航栏选择服务
为微服务配置告警策略 支持对某个服务下的单个微服务或者多个微服务配置告警策略,告警信息会进行上报,业务可在监控服务(ServiceInsight)管理台上查看告警信息。 前提条件 需要具备AppStage服务运维岗位权限或运维管理员权限,权限申请操作请参见申请权限。 新增告警配置
ECS获取和上传基础镜像 Step1 创建镜像组织 在SWR服务页面创建镜像组织。 图1 创建镜像组织 Step2 登录ECS服务器 根据创建ECS服务器创建完成ECS服务器后,单击“远程登录”,可使用华为CloudShell远程登录如图所示。后续安装Docker、获取镜像、构建镜像等操作均在该
ECS中构建新镜像 通过ECS获取和上传基础镜像获取基础镜像后,可通过ECS运行Dockerfile文件,在镜像的基础上构建新镜像。 Step1 构建新ModelArts Standard训练镜像 获取模型软件包,并上传到ECS的目录下(可自定义路径),获取地址参考表1。 解压AscendCloud
训练中的权重转换说明 以 llama2-13b 举例,运行 0_pl_pretrain_13b.sh 脚本。脚本同样还会检查是否已经完成权重转换的过程。 如果已完成权重转换,则直接执行预训练任务。如果未进行权重转换,则会自动执行 scripts/llama2/2_convert_mg_hf.sh