检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
train-00000-of-00001-a09b74b3ef9c3b56.parquet # 训练原始数据集 |── alpaca_gpt4_data.json # 微调数据文件 多机情况下,只有在rank_0节点进行数据预处理
npu-smi info # 在每个实例节点上运行此命令可以看到NPU卡状态 npu-smi info -l | grep Total # 在每个实例节点上运行此命令可以看到总卡数 如出现错误,可能是机器上的NPU设备没有正常安装,或者NPU
npu-smi info # 在每个实例节点上运行此命令可以看到NPU卡状态 npu-smi info -l | grep Total # 在每个实例节点上运行此命令可以看到总卡数,用来确认对应卡数已经挂载 npu-smi info -t
ModelArts环境挂载目录说明 本小节介绍Notebook开发环境、训练任务实例的目录挂载情况(以下挂载点在保存镜像的时候不会保存)。详情如下: Notebook 表1 Notebook挂载点介绍 挂载点 是否只读 备注 /home/ma-user/work/ 否 客户数据的持久化目录
cd /home/ma-user/ws mkdir -p tokenizers/Llama2-70B 多机情况下,只有在rank_0节点进行数据预处理,转换权重等工作,所以原始数据集和原始权重,包括保存结果路径,都应该在共享目录下。 父主题: 准备工作
cd /home/ma-user/ws mkdir -p tokenizers/Llama2-70B 多机情况下,只有在rank_0节点进行数据预处理,转换权重等工作,所以原始数据集和原始权重,包括保存结果路径,都应该在共享目录下。 父主题: 准备工作
如果需要多机训练,增加计算节点个数即可,启动脚本文件diffusers_finetune_train.sh支持多机训练。 图5 选择资源池规格 作业日志路径:选择输出日志到OBS的指定目录。
查看ModelArts模型事件 创建模型的(从用户可看见创建模型任务开始)过程中,每一个关键事件点在系统后台均有记录,用户可随时在对应模型的详情页面进行查看。 方便用户更清楚的了解创建模型过程,遇到任务异常时,更加准确的排查定位问题。可查看的事件点包括: 事件类型 事件信息(“XXX
train_instance_type 是 String 训练作业选择的资源规格,请参考查询资源规格列表 train_instance_count 是 int 训练作业计算节点个数。
DWS) DWS Administrator 云审计服务CTS CTS Administrator AI开发平台ModelArts ModelArts CommonOperations ModelArts Dependency Access 开发环境Notebook/镜像管理/弹性节点
其中,加粗的斜体字段需要根据实际值填写: ma_endpoint为ModelArts的终端节点。 project_id为用户的项目ID。 “X-Auth-Token”的值是上一步获取到的Token值。
Content-Type →application/json 其中,加粗的斜体字段需要根据实际值填写: ma_endpoint为ModelArts的终端节点。 project_id为用户的项目ID。 “X-auth-Token”的值是上一步获取到的Token值。
instance_count 否 Integer 模型部署的实例数,即计算节点的个数。 model_id 否 String 模型ID。 specification 否 String 在线服务的资源规格。
选择专属资源池,计算节点规格选择snt9b,部署超时时间建议设置为40分钟。此处仅介绍关键参数,更多详细参数解释请参见部署在线服务。 图6 部署在线服务-专属资源池 单击“下一步”,再单击“提交”,开始部署服务,待服务状态显示“正常”服务部署完成。
选择专属资源池,计算节点规格选择snt9b,部署超时时间建议设置为40分钟。此处仅介绍关键参数,更多详细参数解释请参见部署在线服务。 图6 部署在线服务-专属资源池 单击“下一步”,再单击“提交”,开始部署服务,待服务状态显示“正常”服务部署完成。
instance_count Integer 模型部署的实例数,即计算节点的个数。 model_id String 模型ID。 specification String 在线服务的资源规格。
说明: 如果您购买的专属池是单节点的Tnt004规格:GPU: 1*tnt004 | CPU: 8 核 32GiB (modelarts.vm.gpu.
Compute Node 节点数(单机训练默认为1) PyCharm中支持两种方式创建训练作业:使用预置镜像训练作业、自定义镜像创建训练作业。 使用预置镜像创建训练作业。 在RunningParameters中填入如下训练参数,其余参数按实际路径填写。
“规格类型”和“节点数量”根据训练计划使用的资源选择。 在ECS服务器挂载SFS Turbo存储 在ECS服务器挂载SFS Turbo存储后,支持将训练所需的数据通过ECS上传至SFS Turbo。 检查云服务环境。
instance_count Integer 模型部署的实例数,即计算节点的个数。 model_id String 模型ID。 specification String 在线服务的资源规格。