检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
功能咨询 是否支持图像分割任务的训练? 本地导入的算法有哪些格式要求? 欠拟合的解决方法有哪些? 旧版训练迁移至新版训练需要注意哪些问题? ModelArts训练好后的模型如何获取? AI引擎Scikit_Learn0.18.1的运行环境怎么设置? TPE算法优化的超参数必须是分类特征(categorical
应用迁移 模型适配 pipeline代码适配 父主题: 基于AIGC模型的GPU推理业务迁移至昇腾指导
模型精度调优 场景介绍 精度问题诊断 精度问题处理 父主题: 基于AIGC模型的GPU推理业务迁移至昇腾指导
性能调优 单模型性能测试工具Mindspore lite benchmark 单模型性能调优AOE 父主题: 基于AIGC模型的GPU推理业务迁移至昇腾指导
准备工作 准备环境 准备代码 准备数据 准备镜像 父主题: 主流开源大模型基于DevServer适配PyTorch NPU训练指导(6.3.905)
训练脚本说明 训练启动脚本说明和参数配置 训练的数据集预处理说明 训练中的权重转换说明 训练tokenizer文件说明 父主题: 主流开源大模型基于DevServer适配PyTorch NPU训练指导(6.3.905)
常见错误原因和解决方法 显存溢出错误 网卡名称错误 保存ckpt时超时报错 父主题: 主流开源大模型基于DevServer适配ModelLink PyTorch NPU训练指导(6.3.907)
推理模型量化 使用AWQ量化 使用SmoothQuant量化 使用kv-cache-int8量化 父主题: 主流开源大模型基于DevServer适配PyTorch NPU推理指导(6.3.907)
常见问题 模型转换报错如何查看日志和定位? 日志提示Compile graph failed 日志提示Custom op has no reg_op_name attr 父主题: GPU推理业务迁移至昇腾的通用指导
主流开源大模型基于Standard适配PyTorch NPU训练指导(6.3.905) 场景介绍 准备工作 预训练 SFT全参微调训练 LoRA微调训练 查看日志和性能 训练脚本说明 父主题: LLM大语言模型训练推理
训练脚本说明 训练启动脚本说明和参数配置 训练的数据集预处理说明 训练的权重转换说明 训练tokenizer文件说明 父主题: 主流开源大模型基于Standard适配PyTorch NPU训练指导(6.3.905)
准备工作 准备资源 准备数据 准备权重 准备代码 准备镜像 准备Notebook 父主题: 主流开源大模型基于Standard适配PyTorch NPU训练指导(6.3.906)
训练脚本说明 训练启动脚本说明和参数配置 训练的数据集预处理说明 训练的权重转换说明 训练tokenizer文件说明 父主题: 主流开源大模型基于Standard适配PyTorch NPU训练指导(6.3.906)
主流开源大模型基于Standard适配PyTorch NPU推理指导(6.3.905) 场景介绍 准备工作 在Notebook调试环境中部署推理服务 在推理生产环境中部署推理服务 推理精度测试 推理性能测试 父主题: LLM大语言模型训练推理
主流开源大模型基于DevServer适配LlamaFactory PyTorch NPU训练指导(6.3.909) 场景介绍 准备工作 执行训练任务 查看日志和性能 训练脚本说明 附录:训练常见问题 父主题: LLM大语言模型训练推理
准备工作 准备环境 准备代码 准备镜像环境 准备数据(可选) 父主题: 主流开源大模型基于DevServer适配LlamaFactory PyTorch NPU训练指导(6.3.909)
训练脚本说明 Yaml配置文件参数配置说明 模型NPU卡数、梯度累积值取值表 各个模型训练前文件替换 NPU_Flash_Attn融合算子约束 BF16和FP16说明 录制Profiling 父主题: 主流开源大模型基于DevServer适配LlamaFactory PyTorch
常见错误原因和解决方法 显存溢出错误 网卡名称错误 工作负载Pod异常 父主题: 主流开源大模型基于Lite Cluster适配PyTorch NPU训练指导(6.3.909)
调试与训练 单机单卡 单机多卡 多机多卡 父主题: 专属资源池训练
单机单卡 线下容器镜像构建及调试 上传镜像 上传数据和算法至OBS(首次使用时需要) 使用Notebook进行代码调试 创建训练任务 监控资源 父主题: 调试与训练