检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
训练精度测试 流程图 训练精度测试流程图如下图所示: 图1 训练精度测试流程图 执行训练任务 进入test-benchmark目录执行训练命令,可以多次执行,按自己实际情况。 benchmark-cli train <cfgs_yaml_file> <model_name> <run_type>
常见错误原因和解决方法 显存溢出错误 网卡名称错误 工作负载Pod异常 父主题: 主流开源大模型基于Lite Cluster适配PyTorch NPU训练指导(6.3.911)
VS Code连接开发环境时报错Missing GLIBC,Missing required dependencies 问题现象 VS Code连接开发环境时报错如下: Warning: Missing GLIBC >= 2.28! from /lib/x86_64-linux-gnu/libc-2
物体检测标注时除了位置、物体名字,是否可以设置其他标签,比如是否遮挡、亮度等? 可以通过修改数据集给标签添加自定义属性来设置一些自定义的属性。 图1 修改数据集 父主题: Standard数据管理
使用CES监控Lite Server资源 场景描述 Lite Server的监控能力依赖于CES云监控服务。本文主要介绍如何对接CES云监控服务,对Lite Server上的资源和事件进行监控。 监控方案介绍 监控概述请参考BMS官方文档。除文档所列支持的镜像之外,目前还支持Ubuntu20
人工标注文本数据 由于模型训练过程需要大量有标签的数据,因此在模型训练之前需对没有标签的文本添加标签。您也可以对已标注文本进行修改、删除和重新标注。 针对文本分类场景,是对文本的内容按照标签进行分类处理,开始标注前,您需要了解: 文本标注支持多标签,即一个标注对象可添加多个标签。
人工标注音频数据 由于模型训练过程需要大量有标签的音频数据,因此在模型训练之前需对没有标签的音频添加标签。通过ModelArts您可对音频进行一键式批量添加标签,快速完成对音频的标注操作,也可以对已标注音频修改或删除标签进行重新标注。音频标注涉及到的标注标签和声音内容只支持中文和英文,不支持小语种。
审核并验收团队标注任务结果 审核团队标注任务结果 团队标注成员完成后,团队审核者可以对标注结果进行审核。 登录ModelArts管理控制台,左侧菜单栏选择“数据准备>数据标注”,在数据标注页面选择“我参与的”,在任务列表“操作”列单击“审核”,发起审核。 图1 发起审核 在审核页
自定义镜像训练作业配置节点间SSH免密互信 当用户使用基于MPI和Horovod框架的自定义镜像进行分布式训练时,需配置训练作业节点间SSH免密互信,否则训练会失败。 配置节点间SSH免密互信涉及代码适配和训练作业参数配置,本文提供了一个操作示例。 准备一个预装OpenSSH的自
Notebook专属预置镜像列表 ModelArts开发环境提供Docker容器镜像,可作为预构建容器运行。预置镜像里面包含PyTorch,Tensorflow,MindSpore等常用AI引擎框架,镜像命名以AI引擎为主,并且每个镜像里面都预置了很多常用包,用户可以直接使用而无需重新安装。
训练专属预置镜像列表 ModelArts平台提供了Tensorflow,PyTorch,MindSpore等常用深度学习任务的基础镜像,镜像里已经安装好运行任务所需软件。当基础镜像里的软件无法满足您的程序运行需求时,您可以基于这些基础镜像制作一个新的镜像并进行训练。 训练基础镜像列表
在Windows上安装配置Grafana 适用场景 本章节适用于在Windows操作系统的PC中安装配置Grafana。 操作步骤 下载Grafana安装包。 进入下载链接,单击Download the installer,等待下载成功即可。 安装Grafana。 双击安装包,按照指示流程安装完成即可。
准备环境 资源规格要求 本文档中的模型运行环境是ModelArts Lite的Lite k8s Cluster。推荐使用“西南-贵阳一”Region上的资源和Ascend Snt9B。 硬盘空间:至少200GB。 Ascend资源规格: Ascend: 1*ascend-snt9b表示Ascend单卡。
在推理生产环境中部署推理服务 本章节介绍如何在ModelArts的推理生产环境(ModelArts控制台的在线服务功能)中部署推理服务。 Step1 准备模型文件和权重文件 在OBS桶中,创建文件夹,准备模型权重文件、推理启动脚本run_vllm.sh及SSL证书。此处以chatglm3-6b为例。
附录:Standard大模型推理常见问题 问题1:在推理预测过程中遇到NPU out of memory。 解决方法:调整推理服务启动时的显存利用率,将--gpu-memory-utilization的值调小。 问题2:在推理预测过程中遇到ValueError:User-specified
准备镜像 镜像版本 本教程中用到基础镜像地址和配套版本关系如下表所示,请提前了解。 表1 基础容器镜像地址 镜像用途 镜像地址 配套版本 基础镜像 swr.cn-southwest-2.myhuaweicloud.com/atelier/pytorch_2_1_ascend:pytorch_2
查看日志和性能 查看日志 训练过程中,训练日志会在最后的Rank节点打印。 图1 打印训练日志 训练完成后,如果需要单独获取训练日志文件,可以在${SAVE_PATH}/logs路径下获取。日志存放路径为:/home/ma-user/ws/saved_dir_for_ma_output/llama2-70b/logs
查看日志和性能 查看日志 训练过程中,训练日志会在第一个的Rank节点打印。 图1 打印训练日志 训练完成后,如果需要单独获取训练日志文件,日志存放在第一个的Rank节点中;日志存放路径为:对应表1表格中output_dir参数值路径下的trainer_log.jsonl文件 查看性能
准备Notebook(可选) 本步骤为可选操作。ModelArts Notebook云上云下,无缝协同,更多关于ModelArts Notebook的详细资料请查看开发环境介绍。 本案例中,如果用户需要自定义开发,可通过Notebook环境进行数据预处理、权重转换等操作。并且No
SFT全参微调训练 前提条件 已上传训练代码、训练权重文件和数据集到OBS中,具体参考代码上传至OBS。 Step1 创建训练任务 创建训练作业,并自定义名称、描述等信息。选择自定义算法,启动方式自定义,以及选择上传的镜像。 代码目录选择:OBS桶路径下的llm_train/AscendSpeed代码目录。