检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
sh ./scripts/obs_pipeline.sh 创建训练作业后,会在节点机器中使用基础镜像创建docker容器,并在容器内进行分布式训练。而 install.sh 则会在容器内安装依赖以及下载完整的代码。当训练作业结束后,对应的容器也会同步销毁。 图4 训练作业启动命令
附录:指令微调训练常见问题 问题1:在训练过程中遇到NPU out of memory 解决方法: 将yaml文件中的per_device_train_batch_size调小,重新训练如未解决则执行下一步。 替换深度学习训练加速的工具或增加zero等级,可参考各个模型深度学习训
容器中的日志路径。 表9 PersistentVolumes 参数 是否必选 参数类型 描述 name 否 String 存储卷的名称。 mount_path 是 String 存储卷在容器中的挂载路径。如:/tmp。请不要挂载在系统目录下,如“/”、“/var/run”等,会导致容器异常。
定位前的排查当前主要包含如下几个方面: 训练超参数。常见的超参如下图所示: 图1 训练超参数 模型的超参通常可能调整的主要有学习率、batch size、并行切分策略、学习率warm-up、模型参数、FA配置等。用户在进行NPU精度和GPU精度比对前,需要保证两边的配置一致。 表1 超参说明 超参 说明
操作名称,枚举如下: stop 停止 rerun 重跑 policies 否 ExecutionActionPolicy object 动作策略。 parameters 否 Array of WorkflowParameter objects 参数。 data_requirements
ccuracy_cfgs.yaml相对或绝对路径 <model_name>:训练模型名,如qwen2.5-7b <run_type>:训练策略类型及数据序列长度:【lora:4096-lora、full:4096-full】 训练完成后,test-benchmark目录下会生成训
ccuracy_cfgs.yaml相对或绝对路径 <model_name>:训练模型名,如qwen2.5-7b <run_type>:训练策略类型及数据序列长度:【lora:4096-lora、full:4096-full】 训练完成后,test-benchmark目录下会生成训
Gallery为零基础开发者,提供无代码开发工具,快速推理、部署模型;为具备基础代码能力的开发者,AI Gallery将复杂的模型、数据及算法策略深度融合,构建了一个高效协同的模型体验环境,让开发者仅需几行代码即可调用任何模型,大幅度降低了模型开发门槛。 充足澎湃算力,最佳实践算力推荐方案,提升实践效率和成本
成用户自己的信息 from modelarts.session import Session # 认证用的ak和sk硬编码到代码中或者明文存储都有很大的安全风险,建议在配置文件或者环境变量中密文存放,使用时解密,确保安全; # 本示例以ak和sk保存在环境变量中来实现身份验证为例
String 容器中的日志路径。 表9 PersistentVolumes 参数 参数类型 描述 name String 存储卷的名称。 mount_path String 存储卷在容器中的挂载路径。如:/tmp。请不要挂载在系统目录下,如“/”、“/var/run”等,会导致容器异常。建
ModelArts平台是否支持多模型导入 ModelArts平台从对象存储服务(OBS)中导入模型包适用于单模型场景。如果有多模型复合场景,推荐使用自定义镜像方式,通过从容器镜像(SWR)中选择元模型的方式创建AI应用部署服务。制作自定义镜像请参考从0-1制作自定义镜像并创建AI应用。
出现性能劣化,从而执行'dp.start'触发profiling采集。 图3 dynamic_profile 存储profiling数据。 多机场景如果没有挂载共享存储如SFS Turbo,需要将多机上的profiling复制至同一个目录下才能进行性能分析,这个操作相对较为繁琐且
足。 磁盘配额不足。 处理方法 查看虚拟机所使用的存储空间,再查看回收站文件占用内存,根据实际删除回收站里不需要的大文件。 在Notebook实例详情页,查看实例的存储容量。 执行如下命令,排查虚拟机所使用的存储空间,一般接近存储容量,请排查回收站占用内存。 cd /home/ma-user/work
创建导入任务 功能介绍 创建数据集的导入任务:从存储系统导入样本、标签到数据集。 调试 您可以在API Explorer中调试该接口,支持自动认证鉴权。API Explorer可以自动生成SDK代码示例,并提供SDK代码示例调试功能。 URI POST /v2/{project_
用户项目ID,获取方法请参见获取项目ID和名称。 storage_id 是 String OBS存储ID。 请求参数 无 响应参数 状态码: 200 表2 响应Body参数 参数 参数类型 描述 category String 存储类型。可选值为OBS。 id String 动态挂载实例ID。 mount_path
objects 节点steps使用到的参数。 policies WorkflowDagPolicies object 执行记录使用到的执行策略。 表3 StepExecution 参数 参数类型 描述 step_name String 节点的名称,在一个DAG中唯一,1到64位只
Integer 存储容量,EVS默认5G,EFS默认50G,最大限制4096G。 category String 支持的存储类型。不同存储类型的差异,详见开发环境中如何选择存储。枚举值如下: SFS:弹性文件服务 EVS:云硬盘 mount_path String 存储挂载至Note
任务时,不收费。 但是存储到OBS中的数据会收取费用。具体内容如表1所示。 表1 存储计费项 计费项 计费项说明 适用的计费模式 计费公式 存储资源 对象存储OBS 用于存储训练和推理的输入数据和输出结果数据。具体费用可参见对象存储价格详情。 注意: 存储到OBS中的数据需在OB
由于模型中LoRA微调训练存在已知的精度问题,因此不支持TP(tensor model parallel size)张量模型并行策略,推荐使用PP(pipeline model parallel size)流水线模型并行策略,具体详细参数配置如表2所示。 Step3 启动训练脚本 修改超参值后,再启动训练脚本。Llama2-70b建议为4机32卡训练。
容器中的日志路径。 表9 PersistentVolumes 参数 是否必选 参数类型 描述 name 否 String 存储卷的名称。 mount_path 是 String 存储卷在容器中的挂载路径。如:/tmp。请不要挂载在系统目录下,如“/”、“/var/run”等,会导致容器异常。