检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
训练完成的权重文件默认不会自动转换为Hugging Face格式权重。若用户需要自动转换,则在运行脚本,例如0_pl_pretrain_13b.sh中,添加变量CONVERT_MG2HF并赋值TRUE。若用户后续不需要自动转换,则在运行脚本中必须删除CONVERT_MG2HF变量。
requirements are installed’ 原因分析 出现该问题的可能原因如下: 用户/训练系统,将CUDA_VISIBLE_DEVICES传错了,检查CUDA_VISIBLE_DEVICES变量是否正常。 用户选择了1/2/4卡这些规格的作业,然后设置了CUDA_VISIBLE_DEV
nt9B资源,请参考创建资源池购买资源。 推荐使用“西南-贵阳一”Region上的昇腾资源。 创建OBS桶 ModelArts使用对象存储服务(Object Storage Service,简称OBS)存储输入输出数据、运行代码和模型文件,实现安全、高可靠和低成本的存储需求。因此
nel粒度量化,否则为per-tensor粒度量化。 启动smoothQuant量化服务。 参考部署推理服务,使用量化后权重部署AWQ量化服务。 注:Step3 创建服务启动脚本启动脚本中,服务启动命令需添加如下命令。 -q smoothquant 或者 --quantization
nt9B资源,请参考创建资源池购买资源。 推荐使用“西南-贵阳一”Region上的昇腾资源。 创建OBS桶 ModelArts使用对象存储服务(Object Storage Service,简称OBS)存储输入输出数据、运行代码和模型文件,实现安全、高可靠和低成本的存储需求。因此
ModelArts提供AI工具链、AI算力,成本由AI算力的资源成本和运维成本构成。 成本分配 ModelArts支持企业项目管理,可以由企业项目服务来管理同一账号下不同项目的成本。 成本分析 通过华为云费用账单来分析账号下的成本支出情况。 成本优化 长期使用的资源,建议客户使用更优惠的
使用基础镜像 通过ECS获取和上传基础镜像将镜像上传至SWR服务后,可创建训练作业,在“选择镜像”中选择SWR中基础镜像。 由于基础镜像内需要安装固定版本依赖包,如果直接使用基础镜像进行训练,每次创建训练作业时,训练作业的图1中都需要执行install.sh文件,来安装依赖以及下载完整代码。命令如下:
使用基础镜像 通过ECS获取和上传基础镜像将镜像上传至SWR服务后,可创建训练作业,在“选择镜像”中选择SWR中基础镜像。 由于基础镜像内需要安装固定版本依赖包,如果直接使用基础镜像进行训练,每次创建训练作业时,训练作业的图1中都需要执行install.sh文件,来安装依赖以及下载完整代码。命令如下:
使用基础镜像 通过ECS获取和上传基础镜像将镜像上传至SWR服务后,可创建训练作业,在“选择镜像”中选择SWR中基础镜像。 由于基础镜像内需要安装固定版本依赖包,如果直接使用基础镜像进行训练,每次创建训练作业时,训练作业的图1中都需要执行 install.sh文件,来安装依赖以及下载完整代码。
使用基础镜像 通过ECS获取和上传基础镜像将镜像上传至SWR服务后,可创建训练作业,在“选择镜像”中选择SWR中基础镜像。 由于基础镜像内需要安装固定版本依赖包,如果直接使用基础镜像进行训练,每次创建训练作业时,训练作业的图1中都需要执行install.sh文件,来安装依赖以及下载完整代码。命令如下:
-e . 开启图模式后,服务第一次响应请求时会有一个较长时间的图编译过程,并且会在当前目录下生成.torchair_cache文件夹来保存图编译的缓存文件。当服务第二次启动时,可通过缓存文件来快速完成图编译的过程,避免长时间的等待,并且基于图编译缓存文件来启动服务可获得更优的推理性能
/v2/{project_id}/workflows 表1 路径参数 参数 是否必选 参数类型 描述 project_id 是 String 用户项目ID。获取方法请参见获取项目ID和名称。 请求参数 表2 请求Body参数 参数 是否必选 参数类型 描述 name 是 String
/v2/{project_id}/workflows/{workflow_id} 表1 路径参数 参数 是否必选 参数类型 描述 project_id 是 String 用户项目ID。获取方法请参见获取项目ID和名称。 workflow_id 是 String 工作流的ID。 表2 Query参数 参数 是否必选
ype类型不影响int8的scale系数的抽取和加载。 启动kv-cache-int8-per-tensor量化服务。 在使用OpenAI接口或vLLM接口启动推理服务时添加如下参数: --kv-cache-dtype int8_pertensor #只支持int8,表示kvint8
Content-Type 否 String 消息体的类型。设置为text/plain,返回临时预览链接。设置为application/octet-stream,返回临时下载链接。 X-Auth-Token 是 String 用户token。 响应参数 状态码:200 表4 响应Body参数 参数 参数类型
训练作业日志中提示“No module named .*” 用户请按照以下思路进行逐步排查: 检查依赖包是否存在 检查依赖包路径是否能被识别 检查训练作业使用的资源规格是否正确 建议与总结 检查依赖包是否存在 如果依赖包不存在,您可以使用以下两种方式完成依赖包的安装。 方式一(推
示输出日志的频率。在训练大规模模型时,可以通过设置这个参数来控制日志的输出。 用户自定义执行数据处理脚本修改参数说明 若用户要自定义数据处理脚本并且单独执行,同样以 llama2 为例。 方法一:用户可打开scripts/llama2/1_preprocess_data.sh脚本
/schedules/{schedule_id} 表1 路径参数 参数 是否必选 参数类型 描述 project_id 是 String 用户项目ID。获取方法请参见获取项目ID和名称。 workflow_id 是 String 工作流的ID。 schedule_id 是 String
使用基础镜像 通过ECS获取和上传基础镜像将镜像上传至SWR服务后,可创建训练作业,在“选择镜像”中选择SWR中基础镜像。 由于基础镜像内需要安装固定版本依赖包,若直接使用基础镜像进行训练,每次创建训练作业时,训练作业的图1中都需要执行 install.sh 文件,来安装依赖以及下载完整代码。
使用基础镜像 通过ECS获取和上传基础镜像将镜像上传至SWR服务后,可创建训练作业,在“选择镜像”中选择SWR中基础镜像。 由于基础镜像内需要安装固定版本依赖包,如果直接使用基础镜像进行训练,每次创建训练作业时,训练作业的图1中都需要执行 install.sh文件,来安装依赖以及下载完整代码。