检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
镜像方案说明 准备大模型训练适用的容器镜像,包括获取镜像地址,了解镜像中包含的各类固件版本,配置Standard物理机环境操作。 基础镜像地址 本教程中用到的训练的基础镜像地址和配套版本关系如下表所示,请提前了解。 表1 基础容器镜像地址 镜像用途 镜像地址 配套版本 基础镜像 swr
镜像方案说明 准备大模型训练适用的容器镜像,包括获取镜像地址,了解镜像中包含的各类固件版本,配置Standard物理机环境操作。 基础镜像地址 本教程中用到的训练的基础镜像地址和配套版本关系如下表所示,请提前了解。 表1 基础容器镜像地址 镜像用途 镜像地址 配套版本 基础镜像 swr
TensorFlow在OBS写入TensorBoard到达5GB时停止 问题现象 ModelArts训练作业出现如下报错: Encountered Unknown Error EntityTooLarge Your proposed upload exceeds the maximum
训练输出路径被其他作业使用 问题现象 在创建训练作业时出现如下报错:操作失败!Other running job contain train_url: /bucket-20181114/code_hxm/ 原因分析 根据报错信息判断,在创建训练作业时,同一个“训练输出路径”在被其他作业使用。
使用预置算法训练时,训练失败,报“bndbox”错误 问题现象 使用预置算法创建训练作业,训练失败,日志中出现如下报错。 KeyError: 'bndbox' 原因分析 用于训练的数据集中,使用了“非矩形框”标注。而预置使用算法不支持“非矩形框”标注的数据集。 处理方法 此问题有两种解决方法:
在ModelArts训练时如何安装C++的依赖库? 在训练作业的过程中,会使用到第三方库。以C++为例,请参考如下操作步骤进行安装: 将源码下载至本地并上传到OBS。使用OBS客户端上传文件的操作请参见上传文件。 将上传到OBS的源码使用Moxing复制到开发环境Notebook中。
集成在线服务API至生产环境中应用 针对已完成调测的API,可以将在线服务API集成至生产环境中应用。 前提条件 确保在线服务一直处于“运行中”状态,否则会导致生产环境应用不可用。 集成方式 ModelArts在线服务提供的API是一个标准的Restful API,可使用HTTP
准备数据 本教程使用自定义数据集,数据集的介绍及下载链接参考自定义数据。 自定义数据 Qwen-VL指令微调数据:Qwen-VL-Chat微调的数据需要用户自行制作,需要准备一个JSON文件存放训练样本,每个样本需包含id和对话内容。对话内容按user和assistant轮流发言
准备数据 本教程使用自定义数据集,数据集的介绍及下载链接参考自定义数据。 自定义数据 Qwen-VL指令微调数据:Qwen-VL-Chat微调的数据需要用户自行制作,需要准备一个JSON文件存放训练样本,每个样本需包含id和对话内容。对话内容按user和assistant轮流发言
ModelArts Standard数据管理相关计费FAQ ModelArts上传数据集收费吗? ModelArts中的数据集管理、标注等操作不收费,但是由于数据集存储在OBS中,因此会根据您使用的OBS桶进行收费。 建议您前往OBS服务,了解OBS计费详情,创建相应的OBS桶用于存储ModelArts使用的数据。
ModelArts计费模式概述 ModelArts服务提供包年/包月和按需计费两种计费模式,以满足不同场景下的用户需求。如您需要快速了解ModelArts服务不同计费模式的具体价格,请参见ModelArts价格详情。 包年/包月:一种预付费模式,即先付费再使用,按照订单的购买周期
自定义镜像模型部署为在线服务时出现异常 问题现象 在部署在线服务时,部署失败。进入在线服务详情页面,“事件”页签,提示“failed to pull image, retry later”,同时在“日志”页签中,无任何信息。 图1 部署在线服务异常 解决方法 出现此问题现象,通常
特权池信息数据显示均为0%如何解决? 问题现象 特权池基本信息页面数据均显示为0%(如CPU使用率、内存使用率、加速卡使用率、加速卡显存使用率)。 原因分析 原因是集群没有安装ICAgent。新建特权池时默认会安装ICAgent,可能由于用户自行卸载ICAgent,导致资源池数据显示异常。
使用VS Code连接实例时,发现VS Code端的实例目录和云上目录不匹配 问题现象 用户使用VS Code连接实例时,发现VS Code端的实例目录和云上目录不匹配。 原因分析 实例连接错误,可能是配置文件写的不规范导致连接到别的实例。 解决方案 检查用户.ssh配置文件(路
在ModelArts上训练模型如何配置输入输出数据? ModelArts支持用户上传自定义算法创建训练作业。上传自定义算法前,请完成创建算法并上传至OBS桶。创建算法请参考开发用于预置框架训练的代码。创建训练作业请参考创建训练作业指导。 解析输入路径参数、输出路径参数 运行在Mo
multi-lora 什么是multi-lora LoRA(Low-Rank Adaptation)是一种适用于大模型的轻量化微调技术方法。原理是通过在模型层中引入低秩矩阵,将大模型的权重降维处理,来实现高效的模型适配。相比于传统的微调方法,LoRA不仅能大幅减少所需的训练参数,
升级模型服务 在AI开发过程中,服务升级包括对已部署的模型服务进行优化,以提高性能、增加功能、修复缺陷,并适应新的业务需求。更新模型版本作为服务升级的一部分,涉及用新训练的模型版本替换原来的模型,以提高预测的准确性和模型的环境适应性。 登录ModelArts管理控制台。 在左侧导航栏中,选择“ModelArts
0528150158-b521cc0 镜像发布到SWR,从SWR拉取 固件驱动:23.0.5 CANN:cann_8.0.rc2 容器镜像OS:hce_2.0 PyTorch:pytorch_2.1.0 FrameworkPTAdapter:6.0.RC2 如果用到CCE,版本要求是CCE
训练作业进程异常退出 问题现象 训练作业运行失败,日志中出现如下类似报错: [Modelarts Service Log]Training end with return code: 137 原因分析 日志显示训练进程的退出码为137。训练进程表示用户的代码启动后的进程,所以这里
创建训练作业界面无云存储名称和挂载路径排查思路 问题现象 创建训练作业界面没有云存储名称和挂载路径这两个选项。 原因分析 用户的专属资源池没有进行网络打通,或者用户没有创建过SFS。 处理方法 在专属资源池列表中,单击资源池“ID/名称”,进入详情页。单击右上角“配置NAS VPC”,检查是否开启了NAS