检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
1”,以此类推。 export ASCEND_RT_VISIBLE_DEVICES=0,1 NPU卡编号可以通过命令npu-smi info查询。 执行权重转换。 cd autosmoothquant/examples/ python smoothquant_model.py --model-path
1”,以此类推。 export ASCEND_RT_VISIBLE_DEVICES=0,1 NPU卡编号可以通过命令npu-smi info查询。 执行权重转换。 cd autosmoothquant/examples/ python smoothquant_model.py --model-path
1”,以此类推。 export ASCEND_RT_VISIBLE_DEVICES=0,1 NPU卡编号可以通过命令npu-smi info查询。 执行权重转换。 cd autosmoothquant/examples/ python smoothquant_model.py --model-path
Standard训练作业 功能咨询 训练过程读取数据 编写训练代码 创建训练作业 管理训练作业版本 查看作业详情
问题现象 VS Code SSH连接后,长时间未操作,窗口未关闭,再次使用发现VS Code在重连环境,无弹窗报错。左下角显示如下图: 查看VS Code Remote-SSH日志发现,连接在大约2小时后断开了: 原因分析 用户SSH交互操作停止后一段时间,防火墙对空闲链接进行
userdata机制拉取cce-agent,但是在服务器上查看没有拉cce-agent的动作,理论上该动作是cloudinit中的脚本在创建时自动执行的,可能是由于安装脚本没有注入userdata或者注入了但未执行。 经查看是由于userdata未执行,可能原因为服务器A制作镜像时没有清理残留目录导致,即:
问题现象 VS Code SSH连接后,长时间未操作,窗口未关闭,再次使用发现VS Code在重连环境,无弹窗报错。左下角显示如下图: 查看VS Code Remote-SSH日志发现,连接在大约2小时后断开了: 原因分析 用户SSH交互操作停止后一段时间,防火墙对空闲链接进行
件chatglm3-6b/tokenization_chatglm.py 。 文件最后几处代码中需要修改,具体位置可根据上下文代码信息进行查找,修改后如图2所示。 图2 修改ChatGLMv3-6B tokenizer文件 图3 修改ChatGLMv3-6B tokenizer文件
件chatglm3-6b/tokenization_chatglm.py 。 文件最后几处代码中需要修改,具体位置可根据上下文代码信息进行查找,修改后如图所示。 图2 修改ChatGLMv3-6B tokenizer文件 图3 修改ChatGLMv3-6B tokenizer文件
件chatglm3-6b/tokenization_chatglm.py 。 文件最后几处代码中需要修改,具体位置可根据上下文代码信息进行查找,修改后如图所示。 图2 修改ChatGLMv3-6B tokenizer文件 图3 修改ChatGLMv3-6B tokenizer文件
件chatglm3-6b/tokenization_chatglm.py 。 文件最后几处代码中需要修改,具体位置可根据上下文代码信息进行查找,修改后如图2所示。 图2 修改ChatGLMv3-6B tokenizer文件 图3 修改ChatGLMv3-6B tokenizer文件
import os os.environ["TF_CPP_MIN_LOG_LEVEL"]='1' # 默认的显示等级,显示所有信息 os.environ["TF_CPP_MIN_LOG_LEVEL"]='2' # 只显示warning和Error os.envir
Gallery的“数据”中,可以查找并下载满足业务需要的数据集。也可以将自己本地的数据集发布至AI Gallery中,共享给其他用户使用。 “资产集市 > 算法”:共享了算法。 AI Gallery的算法模块支持算法的共享和订阅。在AI Gallery的“算法”中,可以查找您想要的算法,订阅满
监控Lite Cluster资源 使用AOM看Lite Cluster监控指标 使用Prometheus查看Lite Cluster监控指标 父主题: Lite Cluster资源管理
预训练 预训练数据处理 预训练任务 断点续训练 查看日志和性能 父主题: LLama2系列模型基于DevServer适配PyTorch NPU训练指导(6.3.904)
常见问题 模型转换报错如何查看日志和定位? 日志提示Compile graph failed 日志提示Custom op has no reg_op_name attr 父主题: GPU推理业务迁移至昇腾的通用指导
主流开源大模型基于Standard适配PyTorch NPU训练指导(6.3.905) 场景介绍 准备工作 预训练 SFT全参微调训练 LoRA微调训练 查看日志和性能 训练脚本说明 父主题: LLM大语言模型训练推理
预训练 预训练数据处理 预训练超参配置 预训练任务 断点续训练 查看日志和性能 父主题: Baichuan2-13B模型基于DevServer适配PyTorch NPU训练指导(6.3.904)
创建桶的区域需要与ModelArts所在的区域一致。例如:当前ModelArts在华北-北京四区域,在对象存储服务创建桶时,请选择华北-北京四。 如何查看OBS桶与ModelArts的所处区域,请参见查看OBS桶与ModelArts是否在同一区域。 请勿开启桶加密,ModelArts不支持加密的OBS桶,会导致ModelArts读取OBS中的数据失败。
主流开源大模型基于DevServer适配LlamaFactory PyTorch NPU训练指导(6.3.909) 场景介绍 准备工作 执行训练任务 查看日志和性能 训练脚本说明 附录:训练常见问题 父主题: LLM大语言模型训练推理