检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
报错“no such identity: C:/Users/xx /test.pem: No such file or directory”如何解决? 问题现象 原因分析 密钥文件不存在于该路径下,或者该路径下密钥文件名被修改。 解决方法 重新选择密钥路径。 父主题: VS Code
在线服务运行中但是预测失败时,如何排查报错是不是模型原因导致的 问题现象 在线服务启动后,当在线服务进入到“运行中”状态后,进行预测,预测请求发出后,收到的响应不符合预期,无法判断是不是模型的问题导致的不符合预期。 原因分析 在线服务启动后,ModelArts提供两种方式的预测:
更新AI应用版本时,边缘服务预测功能不可用? 针对某一部署的边缘服务,如果在更新AI应用版本时,即修改边缘服务,更新其使用的AI应用版本,导致此边缘服务的预测功能暂不可用。 针对此场景,由于更新了AI应用版本,边缘服务将重新部署,处于部署中的边缘服务,则无法使用预测功能。即更新AI
使用VS Code提交代码时弹出对话框提示用户名和用户邮箱配置错误 在VS Code环境中,执行Ctrl+Shift+P。 搜Python: Select Interpreter,选择对应的Python环境。 单击页面上方的“Terminal > New Terminal”,此时打开的命令行界面即为远端容器环境命令行
SFT全参微调训练 前提条件 已上传训练代码、训练权重文件和数据集到SFS Turbo中。 Step1 在Notebook中修改训练超参配置 以llama2-13b SFT微调为例,执行脚本 0_pl_sft_13b.sh 。 修改模型训练脚本中的超参配置,必须修改的参数如表1所示
训练启动脚本说明和参数配置 本代码包中集成了不同模型(包括llama2、llama3、Qwen、Qwen1.5 ......)的训练脚本,并可通过不同模型中的训练脚本一键式运行。训练脚本可判断是否完成预处理后的数据和权重转换的模型。如果未完成,则执行脚本,自动完成数据预处理和权重转换的过程
训练tokenizer文件说明 在训练开始前,需要针对模型的tokenizer文件进行修改,不同模型的tokenizer文件修改内容如下,您可在创建的Notebook中对tokenizer文件进行编辑。 ChatGLMv3-6B 在训练开始前,针对ChatGLMv3-6B模型中的tokenizer
SFT全参微调训练任务 Step1 上传训练权重文件和数据集 如果在准备代码和数据阶段已经上传权重文件和数据集到容器中,可以忽略此步骤。 如果未上传训练权重文件和数据集到容器中,具体参考上传代码和权重文件到工作环境和上传数据到指定目录章节完成。训练脚本中会自动执行训练前的权重转换操作和数据处理操作
推理性能测试 benchmark方法介绍 性能benchmark包括两部分。 静态性能测试:评估在固定输入、固定输出和固定并发下,模型的吞吐与首token延迟。该方式实现简单,能比较清楚的看出模型的性能和输入输出长度、以及并发的关系。 动态性能测试:评估在请求并发在一定范围内波动,
准备环境 本文档中的模型运行环境是ModelArts Lite的DevServer。请参考本文档要求准备资源环境。 资源规格要求 计算规格:不同模型训练推荐的NPU卡数请参见表1。 硬盘空间:至少200GB。 Ascend资源规格: Ascend: 1*ascend-snt9b表示
准备环境 本文档中的模型运行环境是ModelArts Lite的DevServer。请参考本文档要求准备资源环境。 资源规格要求 计算规格:不同模型训练推荐的NPU卡数请参见表1。 硬盘空间:至少200GB。 Ascend资源规格: Ascend: 1*ascend-snt9b表示
常见错误原因和解决方法 显存溢出错误 网卡名称错误 父主题: 主流开源大模型基于Standard+OBS适配PyTorch NPU训练指导(6.3.908)
rm -rf /home/ma-user/.vscode-server/bin/${commitID}/* mkdir -p /home/ma-user/.vscode-server/bin/${commitID} 上传vscode-server压缩包到开发环境。
下载后的源码文件结构如下: AscendSpeed/ |──ascendcloud_patch/ # 针对昇腾云平台适配的功能补丁包 |──scripts/ # 训练需要的启动脚本 |——src/
下载后的源码文件结构如下: AscendSpeed/ |──ascendcloud_patch/ # 针对昇腾云平台适配的功能补丁包 |──scripts/ # 训练需要的启动脚本 |——src/
基类BaseDatasetHandler解析 data_handler的基类是BaseDatasetHandler,其核心函数是serialize_to_disk: def serialize_to_disk(self): """save idx and bin
": 5e8, "overlap_comm": true, "reduce_scatter": true, "reduce_bucket_size": 5e8, "contiguous_gradients": true, "round_robin_gradients
因APIG(API网关)限制,平台每次请求预测的时间不超过40秒。 获取AK/SK 如果已生成过AK/SK,则可跳过此步骤,找到原来已下载的AK/SK文件,文件名一般为:credentials.csv。
作为调用发起方的客户端无法访问已经获取到的推理请求地址 问题现象 完成在线服务部署且服务处于“运行中”状态后,已经通过调用指南页面的信息获取到调用的server端地址,但是调用发起方的客户端访问该地址不通,出现无法连接、域名无法解析的现象。 原因分析 在调用指南页签中显示的调用地址都是华为云
训练权重转换说明 以 llama2-13b 举例,使用训练作业运行 obs_pipeline.sh 脚本后,脚本自动执行权重转换,并检查是否已经完成权重转换的过程。 若已完成权重转换,则直接执行训练任务。若未进行权重转换,则会自动执行scripts/llama2/2_convert_mg_hf.sh