检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
训练tokenizer文件说明 在训练开始前,需要针对模型的tokenizer文件进行修改,不同模型的tokenizer文件修改内容如下,您可在创建的Notebook中对tokenizer文件进行编辑。 LLama2模型 在当前的软件版本中,由于transformers的版本过高(transformers==4
训练tokenizer文件说明 在训练开始前,有些模型需要对模型的tokenizer文件,或者模型配置配置文件进行修改,具体的修改如下: Qwen-VL 修改文件modeling_qwen.py: # 将36 37 两行注释部分 36 SUPPORT_BF16 = SUPPORT_CUDA
剪枝 什么是剪枝 剪枝是一种大模型压缩技术的关键技术,旨在保持推理精度的基础上,减少模型的复杂度和计算需求,以便大模型推理加速。 剪枝的一般步骤是:1、对原始模型调用不同算法进行剪枝,并保存剪枝后的模型;2、使用剪枝后的模型进行推理部署。 常用的剪枝技术包括:结构化稀疏剪枝、半结构化稀疏剪枝、非结构化稀疏剪枝。
ECS获取基础镜像 Step1 创建ECS 下文中介绍如何在ECS中构建一个训练镜像,请参考ECS文档购买一个Linux弹性云服务器。完成网络配置、高级配置等步骤,可根据默认选择,或进行自定义。创建完成后,单击“远程登录”,后续安装Docker等操作均在该ECS上进行。 注意:C
常见错误原因和解决方法 显存溢出错误 网卡名称错误 工作负载Pod异常 mc2融合算子报错 父主题: 主流开源大模型基于Lite Cluster适配ModelLink PyTorch NPU训练指导(6.3.912)
非分离部署推理服务 本章节介绍如何使用vLLM 0.5.0框架部署并启动推理服务。 什么是非分离部署 全量推理和增量推理在同一节点上进行。 前提条件 已准备好DevServer环境,具体参考资源规格要求。推荐使用“西南-贵阳一”Region上的DevServer和昇腾Snt9b资源。
使用AWQ量化工具转换权重 AWQ(W4A16/W8A16)量化方案能显著降低模型显存以及需要部署的卡数。降低小batch下的增量推理时延。支持AWQ量化的模型列表请参见支持的模型列表和权重文件。 本章节介绍如何在Notebook使用AWQ量化工具实现推理量化。 量化方法:W4A16
使用SmoothQuant量化工具转换权重 SmoothQuant(W8A8)量化方案能降低模型显存以及需要部署的卡数。也能同时降低首token时延和增量推理时延。支持SmoothQuant(W8A8)量化的模型列表请参见支持的模型列表和权重文件。 本章节介绍如何在Noteboo
绑定目标服务到应用网关 为应用网关绑定目标服务,以便网关获取组件微服务地址。 操作步骤 为准备资源时创建的应用网关创建服务来源,请参考创建服务来源。 服务来源参数请参考下表进行设置。 参数名称 参数说明 来源类型 目标服务的来源,选择“CSE ServiceComb引擎”。 来源名称
调整微服务实例状态 上线实例 将离线的微服务调整为上线状态。上线实例将会让微服务实例接收流量,请确认后操作。 进入AppStage运维中心。 在顶部导航栏选择服务。 单击,选择“微服务开发 > 服务发现”。 选择左侧导航栏的“服务目录 > 一方服务”。 在一方服务页面,选择“微服务实例列表”页签。
在WiseDBA中同步数据库账号 当业务数据库中新增账号时,通过同步账号功能可以将业务数据库中新增的账号同步到WiseDBA台账中。 注意事项 在WiseDBA台账中删除账号时,会将删除的账号放至回收站中,该账号仍存在于业务数据库中,此时如果执行同步操作,不会将业务数据库中的该账
在SLB中创建流控服务 CPU过载控制OLC(Overload Control)是一种CPU过载调控机制。当CPU过载时,OLC能够对受监控协议报文和任务进行调控,通过不同优先级业务的合理规划和限制报文通过等方式,降低对CPU资源的消耗,并确保设备不会因为某种受监控协议或任务冲击
在WiseDBA中查看数据库状态 支持查询TaurusDB、GaussDB及RDS(for MySQL)类型数据库的Innodb引擎状态、全局变量、全局状态。 查看状态 进入AppStage运维中心。 在顶部导航栏选择服务。 单击,选择“微服务开发 > 数据库治理”。 选择左侧导航栏的“实时诊断”。
在WiseDBA中创建Schema 本节介绍如何通过WiseDBA创建Schema。 前提条件 需要具备AppStage服务运维岗位权限或运维管理员权限,权限申请操作请参见申请权限。 创建Schema 进入AppStage运维中心。 在顶部导航栏选择服务。 单击,选择“微服务开发
从OBS目录导入数据到数据集 前提条件 已存在创建完成的数据集。 准备需要导入的数据,具体可参见从OBS目录导入数据规范说明。 需导入的数据,已存储至OBS中。Manifest文件也需要存储至OBS。详细指导请参见创建OBS桶用于ModelArts存储数据。 确保数据存储的OBS
在Notebook中通过镜像保存功能制作自定义镜像 通过预置的镜像创建Notebook实例,在基础镜像上安装对应的自定义软件和依赖,在管理页面上进行操作,进而完成将运行的实例环境以容器镜像的方式保存下来。镜像保存后,默认工作目录是根目录“/”路径。 保存的镜像中,安装的依赖包不丢
各个模型训练前文件替换 在训练开始前,因模型权重文件可能与训练框架不匹配或有优化,因此需要针对模型的tokenizer文件进行修改或替换,不同模型的tokenizer文件修改内容如下。 falcon-11B模型 在训练开始前,针对falcon-11B模型中的tokenizer文件
显存溢出错误 在训练过程中,常见显存溢出报错,示例如下: RuntimeError: NPU out of memory. Tried to allocate 1.04 GiB (NPU 4; 60.97 GiB total capacity; 56.45 GiB already
显存溢出错误 在训练过程中,常见显存溢出报错,示例如下: RuntimeError: NPU out of memory. Tried to allocate 1.04 GiB (NPU 4; 60.97 GiB total capacity; 56.45 GiB already
使用ServiceStage托管天气预报微服务应用概述 天气预报微服务应用提供天气预报、紫外线和天气湿度展示等功能。本文通过天气预报应用,展示了微服务架构设计理念的应用场景,以及使用ServiceStage管理运行环境、构建应用和治理微服务的最佳实践。 天气预报应用由前端应用和后