检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
使用AWQ量化工具转换权重 AWQ(W4A16)量化方案能显著降低模型显存以及需要部署的卡数。降低小batch下的增量推理时延。支持AWQ量化的模型列表请参见表1。 本章节介绍如何在Notebook使用AWQ量化工具实现推理量化,量化方法为per-group。 Step1 模型量化
训练性能测试 流程图 训练性能测试流程图如下图所示: 图1 训练性能测试流程 执行训练任务 进入test-benchmark目录执行训练命令,可以多次执行,卡数及其它配置参考NPU卡数取值表按自己实际情况决定。 单机<可选>: # 默认8卡 benchmark-cli train
录制Profiling Ascend PyTorch Profiler是针对PyTorch框架开发的性能数据采集和解析工具,通过在PyTorch训练脚本中插入Ascend PyTorch Profiler接口,执行训练的同时采集性能数据,完成训练后直接输出可视化的性能数据文件,提升了性能分析效率。
训练tokenizer文件说明 在训练开始前,需要针对模型的tokenizer文件进行修改,不同模型的tokenizer文件修改内容如下,您可在创建的Notebook中对tokenizer文件进行编辑。 LLama2模型 在当前的软件版本中,由于transformers的版本过高(transformers==4
训练tokenizer文件说明 在训练开始前,有些模型需要对模型的tokenizer文件,或者模型配置配置文件进行修改,具体的修改如下: Qwen-VL 修改文件modeling_qwen.py: # 将36 37 两行注释部分 36 SUPPORT_BF16 = SUPPORT_CUDA
常见错误原因和解决方法 显存溢出错误 网卡名称错误 保存ckpt时超时报错 Git下载代码时报错 父主题: 主流开源大模型基于DevServer适配ModelLink PyTorch NPU训练指导(6.3.909)
ECS获取基础镜像 Step1 创建ECS 下文中介绍如何在ECS中构建一个训练镜像,请参考ECS文档购买一个Linux弹性云服务器。完成网络配置、高级配置等步骤,可根据默认选择,或进行自定义。创建完成后,单击“远程登录”,后续安装Docker等操作均在该ECS上进行。 注意:C
在JupyterLab中创建定时任务 ModelArts Notebook支持创建定时任务。本文档介绍了如何创建定时任务、一键运行Notebook文件,从而提高工作效率。 功能亮点 一键运行:允许用户一键运行Notebook文件,无需逐个执行Cell。 定时任务调度:允许用户设置
训练tokenizer文件说明 在训练开始前,需要针对模型的tokenizer文件进行修改,不同模型的tokenizer文件修改内容如下,您可在创建的Notebook中对tokenizer文件进行编辑。 Yi模型 在使用Yi模型的chat版本时,由于transformer 4.3
使用SmoothQuant量化工具转换权重 SmoothQuant(W8A8)量化方案能降低模型显存以及需要部署的卡数。也能同时降低首token时延和增量推理时延。支持SmoothQuant(W8A8)量化的模型列表请参见支持的模型列表和权重文件。 本章节介绍如何在Noteboo
训练的数据集预处理说明 以 llama2-13b 举例,使用训练作业运行:0_pl_pretrain_13b.sh 训练脚本后,脚本检查是否已经完成数据集预处理。 如果已完成数据集预处理,则直接执行预训练任务。若未进行数据集预处理,则会自动执行 scripts/llama2/1_preprocess_data
在Workflow中使用大数据能力(DLI/MRS) 功能介绍 该节点通过调用MRS服务,提供大数据集群计算能力。主要用于数据批量处理、模型训练等场景。 应用场景 需要使用MRS Spark组件进行大量数据的计算时,可以根据已有数据使用该节点进行训练计算。 使用案例 在华为云MR
常见错误原因和解决方法 显存溢出错误 网卡名称错误 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导(6.3.912) mc2融合算子报错 父主题: 主流开源大模型基于Lite Cluster适配ModelLink PyTorch NPU训练指导(6
查询国家省市信息 服务对象 合作伙伴 场景描述 合作伙伴在伙伴销售平台可以查询省份信息、查询城市列表和查询区县列表。 相关API列表 开放接口 接口定义链接 查询省份信息 https://support.huaweicloud.com/api-bpconsole/mpf_02001
云服务器网络优化方案 操作场景 为了提高程序的运行的性能,可以通过把云服务器上运行的某个进程,指定在某个CPU上工作,实现CPU性能调优。 为了获取更高的执行效率,应该保证一个CPU把一个完整的发送或者接收过程处理完,避免CPU切换。最好一个业务进程/线程固定在一个CPU、固定一
集时要求光线充足,避免昏暗场景和雨雪沙尘等天气。 全景方案典型适用场景:北京财贸职业学院教学楼室内外及前广场、深圳数字创意中心室内空间、深圳东部影视基地室外园区、长沙商贸旅游职业技术学院教学楼室内外。 方案二:激光方案(使用激光设备为主,全景设备为辅) 激光设备型号:Navvis
--rm {image} $(which python) -V 系统会自动添加预置框架关联的超参。 使用预置框架构建训练镜像 ModelArts平台提供了Tensorflow,PyTorch,MindSpore等常用深度学习任务的基础镜像,镜像里已经安装好运行任务所需软件。当基础镜像里
PC客户端进行操作,目前有2种方式: 1、 新建模板:单击PC客户端个人头像>”个人会议管理平台”>”会议设置”>”会议模板设置”>”创建”。 2、 保存历史会议模板:单击PC客户端个人头像>”个人会议管理平台”>”我的会议 ”>”已结束的”>”选中会议”>”保存为模板”。 父主题: 会议管理
网关新增子设备请求响应 功能介绍 平台将该网关新增的子设备列表信息通知给网关设备,平台收到网关新增子设备请求后会在30秒内通过此接口返回响应消息。网关与子设备关系,请查看网关与子设备。 Topic 下行: $oc/devices/{device_id}/sys/events/down