检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
查看日志和性能 单击作业详情页面,则可查看训练过程中的详细信息。 图1 查看训练作业 在作业详情页的日志页签,查看最后一个节点的日志,其包含“elapsed time per iteration (ms)”数据,可换算为tokens/s/p的性能数据。 吞吐量(tokens/s/p):global
准备工作 准备资源 准备数据 准备权重 准备代码 准备镜像 父主题: 主流开源大模型基于Standard+OBS+SFS适配PyTorch NPU训练指导(6.3.907)
训练脚本说明 训练启动脚本说明和参数配置 训练的数据集预处理说明 训练的权重转换说明 训练tokenizer文件说明 父主题: 主流开源大模型基于Standard+OBS+SFS适配PyTorch NPU训练指导(6.3.907)
准备Notebook ModelArts Notebook云上云下,无缝协同,更多关于ModelArts Notebook的详细资料请查看Notebook使用场景介绍。本案例中使用ModelArts的开发环境Notebook部署推理服务进行调试,请按照以下步骤完成Notebook的创建。
基于MindSpore Lite的模型转换 迁移推理业务的整体流程如下: 模型准备 转换关键参数准备 模型转换 推理应用适配 主要通过MindSpore Lite(简称MSLite)进行模型的转换,进一步通过MindSpore Runtime支持昇腾后端的能力来将推理业务运行到昇腾设备上。
MindSpore Lite问题定位指南 在MindSpore Lite使用中遇到问题时,例如模型转换失败、训练后量化转换失败、模型推理失败、模型推理精度不理想、模型推理性能不理想、使用Visual Studio报错、使用Xcode构建APP报错等,您可以先查看日志信息进行定位分析。
SFT全参微调训练 前提条件 已上传训练代码、训练权重文件和数据集到SFS Turbo中,具体参考代码上传至OBS和使用Notebook将OBS数据导入SFS Turbo。 Step1 在Notebook中修改训练超参配置 以llama2-13b SFT微调为例,执行脚本 0_pl_sft_13b
开启训练故障自动重启功能 创建训练作业时,可开启自动重启功能。当环境问题导致训练作业异常时,系统将自动修复异常或隔离节点,并重启训练作业,提高训练成功率。为了避免丢失训练进度、浪费算力。此功能已适配断点续训练。 图1 开启故障重启 断点续训练是通过checkpoint机制实现。c
推理精度测试 本章节介绍如何进行推理精度测试。 前提条件 确保容器可以访问公网。 Step1 配置精度测试环境 获取精度测试代码。精度测试代码存放在代码包AscendCloud-3rdLLM-xxx.zip的llm_tools/llm_evaluation(6.3.905版本)目
精度问题概述 随着ChatGPT的推出,大模型迅速成为AI界热点。大模型训练需要强大的算力支撑,涉及数据、模型、框架、算子、硬件等诸多环节。由于规模巨大,训练过程复杂,经常出现loss不收敛的情况(模型精度问题),主要表现为loss曲线起飞或者毛刺等,且模型的下游任务评测效果变差
应用相关 后台提示:数据库连接池已满或者连接超时 解决方法:修改JDBC中的maxactive值,设置为100 计算报表的时候提示正在计算,有多少用户在排队 解决方法:修改线程数,设置为CPU个数*4 图1 图示 父主题: 疑难问题处理方案
“银河麒麟”系统单机版部署 下载edi-RTPS-kylin.zip文件,解压后进入edi-RTPS-kylin目录下的conf目录,,配置slaves文件,然后执行install_all.sh文件进行部署。 假设把安装包放在opt目录下,命令如下: # unzip -q /opt/edi-RTPS-kylin
ERROR6103 Docker Cgroup Driver参数配置错误 错误码说明 Docker的Cgroup Driver参数配置错误。 可能原因 IEF只支持Docker的Cgroup Driver参数配置为cgroupfs。 处理措施 执行如下命令,检查Docker当前配置:
管理AI Gallery中的AI应用 当AI应用创建完成后,支持修改内容,例如修改环境变量、可见范围。 约束限制 当AI应用的“可见范围”是“私密”时,才支持修改环境变量、可见范围或删除AI应用。 管理AI应用环境变量 AI应用支持增删改查环境变量,配置好的环境变量可以在运行文件中直接调用。
创建后端API 功能介绍 在某个实例中创建后端API。 URI POST /v1/{project_id}/apic/instances/{instance_id}/livedata-apis 表1 路径参数 参数 是否必选 参数类型 描述 project_id 是 String
删除自定义认证 功能介绍 删除自定义认证 URI DELETE /v1/{project_id}/apic/instances/{instance_id}/authorizers/{authorizer_id} 表1 路径参数 参数 是否必选 参数类型 描述 project_id
查询后端API详情 功能介绍 查询后端API的详细信息。 URI GET /v1/{project_id}/apic/instances/{instance_id}/livedata-apis/{ld_api_id} 表1 路径参数 参数 是否必选 参数类型 描述 project_id
C#客户端使用说明 操作场景 本文介绍C#版本的Kafka客户端连接指导,包括Kafka客户端安装,以及生产、消费消息。 前提条件 已获取MQS连接信息,具体请参见开发准备。 已安装开发工具和C#开发语言环境,具体请参见开发准备。 引入Kafka客户端 MQS基于Kafka社区版本1
如何处理虚拟机类型环境下创建和部署组件时端口访问不通的错误? 问题描述 在ServiceStage虚拟机类型环境下创建和部署组件时可能会遇到容器端口无法访问的问题。使用curl -kv http://${部署应用组件的弹性云服务器节点IP}:${容器端口}命令访问容器端口时会提示访问超时。
获取数据库资源规格列表 功能介绍 获取数据库资源规格列表 URI GET /v1/{project_id}/system/database-resources/flavors 表1 路径参数 参数 是否必选 参数类型 描述 project_id 是 String 华为云项目ID,您可以从获取项目ID中获取。