检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导(6.3.912) 场景介绍 准备工作 执行训练任务 查看日志和性能 训练脚本说明 常见错误原因和解决方法 父主题: LLM大语言模型训练推理
准备工作 准备环境 准备代码 准备镜像 父主题: 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导(6.3.911)
准备工作 准备资源 准备权重 准备代码 准备镜像 准备Notebook 父主题: 主流开源大模型基于Standard适配PyTorch NPU推理指导(6.3.911)
推理服务部署 准备推理环境 启动推理服务 父主题: 主流开源大模型基于Lite Server适配Ascend-vLLM PyTorch NPU推理指导(6.3.912)
量化 W4A16量化 W8A8量化 W8A16量化 kv-cache-int8量化 父主题: 推理关键特性使用
附录 各模型支持的最小卡数和最大序列 Ascend-vLLM推理常见问题 父主题: 主流开源大模型基于Lite Server适配Ascend-vLLM PyTorch NPU推理指导(6.3.912)
准备工作 准备环境 准备代码 准备数据 准备镜像 父主题: 主流开源大模型基于Lite Server适配ModelLink PyTorch NPU训练指导(6.3.908)
常见错误原因和解决方法 显存溢出错误 网卡名称错误 父主题: 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导(6.3.908)
准备工作 准备资源 准备数据 准备权重 准备代码 准备镜像 父主题: 主流开源大模型基于Standard+OBS+SFS适配ModelLink PyTorch NPU训练指导(6.3.908)
常见错误原因和解决方法 显存溢出错误 网卡名称错误 父主题: 主流开源大模型基于Standard+OBS+SFS适配ModelLink PyTorch NPU训练指导(6.3.909)
主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导(6.3.909) 场景介绍 准备工作 执行训练任务 查看日志和性能 训练脚本说明 附录:训练常见问题 父主题: LLM大语言模型训练推理
准备工作 准备环境 准备代码 准备镜像环境 准备数据(可选) 父主题: 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导(6.3.909)
准备工作 准备资源 准备数据 准备权重 准备代码 将数据预热到SFS Turbo 准备镜像 父主题: Qwen-VL基于Standard+OBS+SFS适配PyTorch NPU训练指导(6.3.912)
训练脚本说明 训练脚本参数说明 不同模型推荐的参数与NPU卡数设置 训练tokenizer文件说明 父主题: Qwen-VL基于Standard+OBS+SFS适配PyTorch NPU训练指导(6.3.912)
准备工作 准备资源 准备数据 准备权重 准备代码 准备镜像 父主题: Qwen-VL模型基于Standard+OBS适配PyTorch NPU训练指导(6.3.912)
常见错误原因和解决方法 显存溢出错误 网卡名称错误 联网下载SimSun.ttf时可能会遇到网络问题 在运行finetune_ds.sh 时遇到报错 父主题: Qwen-VL模型基于Standard+OBS适配PyTorch NPU训练指导(6.3.912)
产品发布说明 ModelArts版本配套关系表 昇腾云服务6.5.901版本说明(推荐) 昇腾云服务6.3.912版本说明 昇腾云服务6.3.911版本说明 昇腾云服务6.3.910版本说明 昇腾云服务6.3.909版本说明 昇腾云服务6.3.908版本说明 昇腾云服务6.3.907版本说明
String 用户项目ID。获取方法请参见获取项目ID和名称。 表2 Query参数 参数 是否必选 参数类型 描述 user_id 否 String 用户ID,当user_id为all时,表示删除所有IAM子用户的授权。 请求参数 无 响应参数 无 请求示例 删除指定用户的授权 DELETE
计费项 自动学习/Workflow计费项 数据管理计费项 开发环境计费项 模型训练计费项 模型管理计费项 推理部署计费项 专属资源池计费项
OBS操作相关故障 读取文件报错,如何正确读取文件 TensorFlow-1.8作业连接OBS时反复出现提示错误 TensorFlow在OBS写入TensorBoard到达5GB时停止 保存模型时出现Unable to connect to endpoint错误 OBS复制过程中提示“BrokenPipeError: