正在生成
详细信息:
检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
昇腾系列AI处理器温度 摄氏度(℃) 自然数 AI处理器AI CORE利用率 ma_container_npu_ai_core_util 昇腾系列AI处理器AI Core利用率 百分比(Percent) 0~100% AI处理器AI CORE时钟频率 ma_container_n
网卡名称错误 当训练开始时提示网卡名称错误。或者通信超时。可以使用ifconfig命令检查网卡名称配置是否正确。 比如,ifconfig看到当前机器IP对应的网卡名称为enp67s0f5,则可以设置环境变量指定该值。 图1 网卡名称错误 export GLOO_SOCKET_IFNAME=enp67s0f5
网卡名称错误 当训练开始时提示网卡名称错误。或者通信超时。可以使用ifconfig命令检查网卡名称配置是否正确。 比如,ifconfig看到当前机器IP对应的网卡名称为enp67s0f5,则可以设置环境变量指定该值。 图1 网卡名称错误 export GLOO_SOCKET_IFNAME=enp67s0f5
-v ${work_dir}:${container_work_dir} \ --name ${container_name} \ $image_name \ /bin/bash 参数说明: --name ${container_name} 容器名称,进入容器
zip软件包和算子包AscendCloud-OPP,AscendCloud-LLM关键文件介绍如下。 |——AscendCloud-LLM |──llm_train # 模型训练代码包 |──LLaMAFactory
zip软件包和算子包AscendCloud-OPP,AscendCloud-LLM关键文件介绍如下。 |——AscendCloud-LLM |──llm_train # 模型训练代码包 |──LLaMAFactory
ror错误? 问题现象 Notebook中,运行训练代码出现如下错误。 cudaCheckError() failed : no kernel image is available for execution on the device 原因分析 因为编译的时候需要设置setup
线上训练得到的模型是否支持离线部署在本地? 通过ModelArts预置算法训练得到的模型是保存在OBS桶里的,模型支持下载到本地。 在训练作业列表找到需要下载模型的训练作业,单击名称进入详情页,获取训练输出路径。 图1 获取训练输出位置 单击“输出路径”,跳转至OBS对象路径,下载训练得到的模型。
ModelArts标注数据丢失,看不到标注过的图片的标签 原因是删除了默认的标注作业,导致标签被删除。 父主题: Standard数据管理
通过人工标注方式标注数据 创建ModelArts人工标注作业 人工标注图片数据 人工标注文本数据 人工标注音频数据 人工标注视频数据 管理标注数据 父主题: 标注ModelArts数据集中的数据
推理模型量化 使用AWQ量化工具转换权重 使用SmoothQuant量化工具转换权重 使用kv-cache-int8量化 父主题: 主流开源大模型基于Standard适配PyTorch NPU推理指导(6.3.906)
场景介绍 本文以ChatGLM-6B为例,介绍如何将模型迁移至昇腾设备上训练、模型精度对齐以及性能调优。 主要包含以下步骤: 环境准备 迁移适配 精度对齐 性能调优 父主题: 基于LLM模型的GPU训练业务迁移至昇腾指导
主流开源大模型基于Standard+OBS适配PyTorch NPU训练指导(6.3.908) 场景介绍 准备工作 预训练 SFT全参微调训练 LoRA微调训练 查看日志和性能 训练脚本说明 常见错误原因和解决方法 父主题: LLM大语言模型训练推理
train_labels += labels train_filenames += filenames train_data = np.concatenate(train_data_record, axis=0) train_labels
可以参考表1按照实际需求修改。 表1 训练超参配置说明 参数 示例值 参数说明 ORIGINAL_TRAIN_DATA_PATH /home/ma-user/work/training_data/alpaca_gpt4_data.json 必须修改。训练时指定的输入数据路径。请根据实际规划修改。
13b中创建文件夹training_data。 利用OBS Browser+工具将步骤1下载的数据集上传至步骤2创建的文件夹目录下。得到OBS下数据集结构: obs://<bucket_name>/training_data |── train-00000-of-0
selected and the file permission is correct. You can view the instance keypair information on ModelArts console.” 原因分析 文件夹“.ssh”的权限不仅是Windows当前用户拥
拉取镜像。本测试镜像为bert_pretrain_mindspore:v1,已经把测试数据和代码打进镜像中。 docker pull swr.cn-southwest-2.myhuaweicloud.com/os-public-repo/bert_pretrain_mindspore:v1 docker
py ##复制输出结果到OBS目录。 TRAIN_URL=`echo ${DLS_TRAIN_URL} | sed /s/s3/obs/` /opt/utils/obsutil cp –r –f /cache/out ${TRAIN_URL} 把run.sh放到/opt目录,
改。 表1 必须修改的训练超参配置 参数 示例值 参数说明 ORIGINAL_TRAIN_DATA_PATH /home/ma-user/ws/llm_train/AscendSpeed/training_data/alpaca_gpt4_data.json 必须修改。训练时指定的输入数据路径。请根据实际规划修改。