检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
图3 ModelArts FullAccess 以相同的方式,依次添加:BMS FullAccess、ECS FullAccess、VPC FullAccess、VPC Administrator、VPCEndpoint Administrator。
父主题: 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导(6.3.911)
父主题: Lite Cluster
Cluster运行的,需要购买并开通k8s Cluster资源。
OBS OperateAccess 必选 SWR容器镜像仓库 授予子用户使用SWR服务权限。ModelArts的自定义镜像功能依赖镜像服务SWR FullAccess权限。 SWR OperateAccess 必选 CES云监控 授予子用户使用CES云监控服务的权限。
表3 响应参数 参数 参数类型 说明 is_success Boolean 请求是否成功。 error_message String 调用失败时的错误信息。 调用成功时无此字段。 error_code String 调用失败时的错误码,具体请参见错误码。 调用成功时无此字段。
训练参数配置说明【旧】 如果用户希望自定义参数进行训练,可直接编辑对应模型的训练脚本,请根据实际模型修改。 表1 模型训练脚本参数 参数 示例值 参数说明 ORIGINAL_TRAIN_DATA_PATH 【预训练:pt】预训练数据集相对或绝对地址 【微调:sft】微调数据集相对或绝对地址
success Boolean 操作是否执行成功。
snt9b-20240528150158-b521cc0 镜像发布到SWR,从SWR拉取 固件驱动:23.0.5 CANN:cann_8.0.rc2 容器镜像OS:hce_2.0 PyTorch:pytorch_2.1.0 FrameworkPTAdapter:6.0.RC2 如果用到CCE
AccessKeyId=QEKFB6WFGZWC2YUP2JPK&Expires=1606380154&x-obs-security-token=gQpjbi1ub3J0aC03jdUZcXVRCNOHjWNNWiuu2E...
Lite模式DevServer节点操作系统 HCE2.0(推荐)/EulerOS 2.10 Lite模式Cluster节点操作系统 EulerOS 2.10(CCE标准版)/HCE2.0(CCE Turbo) Standard模式集群节点操作系统 EulerOS 2.10(CCE标准版
如果只是查看监控,给子账号授予CES ReadOnlyAccess权限即可。 如果还需要在CES上设置监控告警,则需要再加上CES FullAccess权限,以及SMN消息通知权限。 (可选)配置VPC权限。
比如${access key}表示输入用户自己的access key。
Cluster运行的,需要购买并开通k8s Cluster资源。
Cluster运行的,需要购买并开通k8s Cluster资源。
opencompass脚本 ├──vllm_api.py #启动vllm api服务器 ├──vllm.py #构造vllm评测配置脚本名字 相关文档 和本文档配套的模型训练文档请参考《主流开源大模型基于Lite Cluster
OBS OperateAccess 必选 SWR容器镜像仓库 授予子用户使用SWR服务权限。ModelArts的自定义镜像功能依赖镜像服务SWR FullAccess权限。
具体操作如下: 开始之前,请确保安装了以下库: pip install auto-gptq pip install --upgrade accelerate optimum transformers 设置GPTQConfig的参数,并且创建一个数据集用于校准量化的权重,以及一个tokenizer
具体操作如下: 开始之前,请确保安装了以下库: pip install auto-gptq pip install --upgrade accelerate optimum transformers 设置GPTQConfig的参数,并且创建一个数据集用于校准量化的权重,以及一个tokenizer
训练作业的监控内存指标持续升高直至作业失败 问题现象 训练作业的“状态”为“运行失败”。 原因分析 训练作业的监控内存指标持续升高,导致最后训练作业失败。 处理步骤 查询训练作业的日志和监控信息,是否存在明确的OOM报错信息。 是,训练作业的日志里存在OOM报错,执行2。 否,训练作业的日志里没有