检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
SFT全参微调训练 前提条件 已上传训练代码、训练权重文件和数据集到SFS Turbo中。 Step1 修改训练超参配置 以llama2-13b SFT微调为例,执行脚本 0_pl_sft_13b.sh 。 修改模型训练脚本中的超参配置,必须修改的参数如表1所示。其他超参均有默认值,可以参考表1按照实际需求修改。
附录:训练常见问题 问题1:在训练过程中遇到NPU out of memory 解决方法: 容器内执行以下命令,指定NPU内存分配策略的环境变量,开启动态内存分配,即在需要时动态分配内存,可以提高内存利用率,减少OOM错误的发生。 export PYTORCH_NPU_ALLOC_CONF
常见错误原因和解决方法 显存溢出错误 网卡名称错误 父主题: 主流开源大模型基于Standard+OBS适配PyTorch NPU训练指导(6.3.910)
附录:大模型推理常见问题 问题1:在推理预测过程中遇到NPU out of memory。 解决方法:调整推理服务启动时的显存利用率,将--gpu-memory-utilization的值调小。 问题2:在推理预测过程中遇到ValueError:User-specified max_model_len
使用SmoothQuant量化 SmoothQuant(W8A8)量化方案能降低模型显存以及需要部署的卡数。也能同时降低首token时延和增量推理时延。支持SmoothQuant(W8A8)量化的模型列表请参见表3。 本章节介绍如何使用SmoothQuant量化工具实现推理量化。
附录:训练常见问题 问题1:在训练过程中遇到NPU out of memory 解决方法: 容器内执行以下命令,指定NPU内存分配策略的环境变量,开启动态内存分配,即在需要时动态分配内存,可以提高内存利用率,减少OOM错误的发生。 export PYTORCH_NPU_ALLOC_CONF
执行训练任务 步骤一:上传训练权重文件和数据集 如果在准备代码和数据阶段已经上传权重文件、自定义数据集,可以忽略此步骤。 未上传训练权重文件,具体参考上传代码和权重文件到工作环境。 使用自定义数据集训练未上传自定义数据集。具体参考上传自定义数据到指定目录章节并更新dataset_info
使用GPTQ量化 当前版本使用GPTQ量化仅支持W8A16 perchannel的量化形式,使用W8A16的量化不仅可以保证精度在可接受的范围内,同时也有一定的性能收益。 GPTQ W8A16量化支持的模型请参见表3。 本章节介绍如何在GPU的机器上使用开源GPTQ量化工具GPTQ
SFT全参微调训练 前提条件 已上传训练代码、训练权重文件和数据集到SFS Turbo中。 Step1 修改训练超参配置 以llama2-13b SFT微调为例,执行脚本 0_pl_sft_13b.sh 。 修改模型训练脚本中的超参配置,必须修改的参数如表1所示。其他超参均有默认值,可以参考表1按照实际需求修改。
SFT全参微调训练 前提条件 已上传训练代码、训练权重文件和数据集到SFS Turbo中。 Step1 在Notebook中修改训练超参配置 以llama2-13b SFT微调为例,执行脚本 0_pl_sft_13b.sh 。 修改模型训练脚本中的超参配置,必须修改的参数如表1所
训练启动脚本说明和参数配置 本代码包中集成了不同模型(包括llama2、llama3、Qwen、Qwen1.5 ......)的训练脚本,并可通过不同模型中的训练脚本一键式运行。训练脚本可判断是否完成预处理后的数据和权重转换的模型。如果未完成,则执行脚本,自动完成数据预处理和权重转换的过程。
训练tokenizer文件说明 在训练开始前,需要针对模型的tokenizer文件进行修改,不同模型的tokenizer文件修改内容如下,您可在创建的Notebook中对tokenizer文件进行编辑。 ChatGLMv3-6B 在训练开始前,针对ChatGLMv3-6B模型中的
创建过滤器在告警接入时过滤告警 通过创建过滤器,在告警接入时过滤指定告警,过滤后,告警会进入Bypass的数据库,不会进入告警处理模块,即不会显示在告警列表。 前提条件 已获取服务运维岗位权限或运维管理员权限,权限申请操作请参见申请权限。 创建过滤器过滤告警 进入AppStage运维中心。
查看已上架的EAP动作 动作是部署服务当前对各模块操作的封装,如部署任务,执行作业,确认告警等。可以查看当前EAP已经上架了哪些动作,包含哪些能力。 查看已上架的EAP动作 进入AppStage运维中心。 在顶部导航栏选择服务。 单击,选择“运维 > 监控服务(ServiceInsight)”。
创建运维事件通知组 通知组通常包括运维代表、开发代表、相关领域专家等。 通知组在运维事件发送通知、WarRoom基于通知组方式发送通知时使用。 前提条件 已获取服务运维岗位权限或运维管理员权限,权限申请操作请参见申请权限。 创建通知组 进入AppStage运维中心。 在顶部导航栏选择服务。
升级弹性云服务器主机已安装的OpsAgent 可以在“弹性云服务器”页面升级主机已安装的OpsAgent。 前提条件 已获取基础运维岗位权限或运维管理员权限,权限申请操作请参见申请权限。 升级OpsAgent 进入AppStage运维中心。 单击,选择“运维 > 主机管理服务(VMS)”。
议SDK开发插件接入TCP协议设备,实现同平台的通信。 假设电子学生证的通信协议如下: 1、终端设备开启之后先向平台发起登录请求,直到登录成功后,设备与平台才会进行通信。 2、设备登录成功后,定时5分钟上报一次GPS位置信息。 3、平台可以通过下发指令,设置位置上报的周期。 SDK介绍
刷新设备密钥 典型场景 已在物联网平台注册的设备,若设备的唯一标识码发生变更(如更换设备等场景),第三方应用需要调用此接口在物联网平台更新设备的唯一标识,并重新绑定设备。 仅当设备处于离线状态时,才能进行刷新设备密钥操作。 接口功能 支持第三方应用在物联网平台更新已注册设备的nodeId
教育资源数字化:教学资源数字化,处处能学、时时可学。 统一教育平台:统一云端管理平台和IOC驾驶舱,丰富应用。 教育智能化:结合AI提供课情分析、课堂行为分析和学生画像。 教育公平:远程教育,跨区域/跨学校/跨终端打通教学资源。 大企业数字化转型:中石油、中国生物 统一平台,统一应用中心。 轻应用开发快速构建,覆盖全代码、低代码、零代码场景。
标定文件必须上传到对应类型标定项,如激光雷达标定文件,只能上传到激光雷达标定项,平台会对文件标定类型和关键参数进行校验。 检查是否重名 标定文件可以重名,但上传到平台的标定项名称不可重名。 检查文件内容 平台会对每种类型标定文件中的关键参数进行检查,确保类型匹配、标定文件内容完整。 父主题: