检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
Service)作为存储的方案,OBS用于存储模型文件、训练数据、代码、日志等,提供了高可靠性的数据存储解决方案。 约束限制 如果要使用自动重启功能,资源规格必须选择八卡规格,只有llama3-8B/70B支持该功能。 适配的CANN版本是cann_8.0.rc3,驱动版本是23.0.6。 本案例仅支持
app_key String APP的key。 app_name String APP名称。 app_remark String APP描述,默认为空。不超过200个字符。 app_secret String APP密钥。 app_type String APP类型。枚举值如下: APIC:该APP注册在roma
occurred : ('copy_d2d:build/xxx NPU function error” 错误截图: 报错原因:开启虚拟内存导致,虚拟内存不兼容某些训练场景如PPO、基于lora微调增量训练等 解决措施:关闭虚拟内存 使用历史版本demo.sh启动训练时,任务前容器中执行以下命令:
app_key String APP的key。 app_name String APP名称。 app_remark String APP描述,默认为空。不超过200个字符。 app_secret String APP密钥。 app_type String APP类型。枚举值如下: APIC:该APP注册在roma
io/unreachable node.kubernetes.io/not-ready A050203 Runtime 掉卡 AI正常卡数和实际容量不匹配。 检测到存在GPU或NPU掉卡情况。 A050206 Runtime 其他 Kubelet硬盘只读。 “/mnt/paas/kuber
session = Session() 本地PC使用ModelArts SDK时,需要进行Session鉴权。鉴权方式可参考如下认证方式,选择其中一种方式进行认证即可。 用户名密码认证模式: 支持OBS管理、数据管理、训练管理、模型管理、服务管理的鉴权。 用户AK-SK认证模式:
您可订阅AI Gallery上的模型进行AI体验学习。 推理支持的AI引擎 在ModelArts创建模型时,如果使用预置镜像“从OBS中选择”导入模型,则支持如下常用引擎及版本的模型包。 统一镜像Runtime的命名规范:<AI引擎名字及版本> - <硬件及版本:cpu或cuda或cann>
--benchmark-csv:结果保存路径,如benchmark_serving.csv。 --served-model-name: 选择性添加, 选择性添加,在接口中使用的模型名;如果没有配置,则默认为tokenizer。 --num-scheduler-steps: 需和服务启动
表示训练类型。可选择值:[pretrain, sft, lora]。 DATA_TYPE [GeneralPretrainHandler, GeneralInstructionHandler, MOSSMultiTurnHandler] 示例值需要根据数据集的不同,选择其一。 Gen
填写ascend_vllm文件夹绝对路径。 高阶配置(可选)。 词表切分。 在分布式场景下,默认不使用词表切分能提升推理性能,同时也会增加单卡的显存占用。不建议开启词表并行,如确需使用词表切分,配置以下环境变量: export USE_VOCAB_PARALLEL=1 #打开词表切分开关 unset
加速框架或ZeRO (Zero Redundancy Optimizer)优化器、NPU节点数即其他配置。 具体优化工具使用说明可参考如何选择最佳性能的zero-stage和-offloads。 父主题: 训练脚本说明
-retry-num”字段,视为开启自动重启,value的范围可以设置为1~128的整数。value值表示最大允许重新下发作业的次数。如果不传入则默认为0,表示不做重新下发作业,也不会启用环境检测。 图6 设置API 检测项目与执行条件 检测项目 item(日志关键字) 执行条件
NPU。 检查containerd是否安装。 containerd -v # 检查containerd是否安装 在创建CCE集群时,会选择 containerd 作为容器引擎,并默认给机器安装。如尚未安装,说明机器操作系统安装错误。需要重新纳管机器,重新安装操作系统。 安装n
Turbo,然后在训练作业中挂载SFS Turbo到容器对应ckpt目录,实现分布式读取训练数据文件。 约束限制 如果要使用自动重启功能,资源规格必须选择八卡规格。 适配的CANN版本是cann_8.0.rc3,驱动版本是23.0.6。 本案例仅支持在专属资源池上运行。 文档更新内容 6.3
加速框架或ZeRO (Zero Redundancy Optimizer)优化器、NPU节点数即其他配置。 具体优化工具使用说明可参考如何选择最佳性能的zero-stage和-offloads。 父主题: 训练脚本说明
Storage Service)与SFS Turbo文件系统联动,可以实现灵活数据管理、高性能读取等。 约束限制 如果要使用自动重启功能,资源规格必须选择八卡规格。 适配的CANN版本是cann_8.0.rc3,驱动版本是23.0.6。 本案例仅支持在专属资源池上运行,确保专属资源池可以访问公网。
create_version 否 Boolean 创建任务时是否同步创建一个任务版本。可选值如下: true:创建任务时同步创建一个任务版本 false:创建任务时不创建任务版本(默认值) data_source 否 ProcessorDataSource object 数据来源,与inputs二选一。 description
IONS、ANY,固定返回ANY。 api_name String API名称。 api_remark String API描述。字符长度不超过255。 auth_type String API的认证方式。枚举值如下: NONE:无认证 APP:APP认证 IAM:IAM认证 predict_url
存储容量,EVS默认5G,最大限制4096G。 category 是 String 支持的存储类型。不同存储类型的差异,详见开发环境中如何选择存储。枚举值如下: SFS:弹性文件服务 EVS:云硬盘 ownership 是 String 资源所属,枚举值如下: MANAGED:托管,即资源在服务上。
)的字符。 type 否 String 输入项类型。枚举值如下: dataset:数据集 obs:OBS data_selector:数据选择 data 否 Object 输入项数据。 value 否 Object 输入项的值。 表5 JobOutput 参数 是否必选 参数类型