检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
不要将多个容器绑到同一个NPU上,会导致后续的容器无法正常使用NPU功能。 进入容器。默认使用ma-user用户,后续所有操作步骤都在ma-user用户下执行。 docker exec -it sdxl-train bash Step5 安装依赖 安装pip依赖。
qwen2-72B、llama2-70B)等sft训练完成后多线程退出时报“torch.distributed.DistStoreError: Socket Timeout”时请参考问题4:Error waiting on exit barrier错误 4、需要开启profiling功能进行性能数据采集和解析请参考录制
在ModelArts训练中实现增量训练,建议使用“训练输出”功能。 在创建训练作业时,设置训练“输出”参数为“train_url”,在指定的训练输出的数据存储位置中保存Checkpoint,且“预下载至本地目录”选择“下载”。
tools:描述可用的外部工具或功能的信息,这些工具可能被模型用来执行某些任务或获取更多信息。
True表示关闭重计算功能。 include_tokens_per_second include_num_input_tokens_seen true 用于在训练过程中包含每秒处理的tokens和已经看到的输入tokens,方便计算性能。
断点续训:训练过程中保存的某个权重,可参考断点续训和故障快恢说明 train_auto_resume false 【可选】是否开启【故障快恢】功能,【true、false】默认false不开启,当训练中断时重启任务会从最新生成权重文件处继续训练。
API Explorer可以自动生成SDK代码示例,并提供SDK代码示例调试功能。
获取软件和镜像 表1 获取软件和镜像 分类 名称 获取路径 插件代码包 AscendCloud-6.3.910软件包中的AscendCloud-AIGC-6.3.910-xxx.zip 文件名中的xxx表示具体的时间戳,以包名发布的实际时间为准。
获取软件和镜像 表1 获取软件和镜像 分类 名称 获取路径 插件代码包 AscendCloud-6.3.911软件包中的AscendCloud-CV-6.3.911-xxx.zip 文件名中的xxx表示具体的时间戳,以包名发布的实际时间为准。
不要将多个容器绑到同一个NPU上,会导致后续的容器无法正常使用NPU功能。 进入容器。需要将${container_name}替换为实际的容器名称。启动容器默认使用ma-user用户,后续所有操作步骤都在ma-user用户下执行。
将NPU代码目录中的opensora/schedulers/iddpm/__init__.py文件和opensora/schedulers/iddpm/gaussian_diffusion.py文件复制到GPU代码目录中,添加固定随机数功能。
图1 任务示意图 约束与限制 该功能只支持贵阳一区域,如果要在其他区域使用请联系技术支持。 ModelArts Lite资源池对应的CCE集群需要安装1.10.12及以上版本的华为云版Volcano插件。Volcano调度器的安装升级请参见Volcano调度器。
tools:描述可用的外部工具或功能的信息,这些工具可能被模型用来执行某些任务或获取更多信息。
创建Workflow模型注册节点 功能介绍 通过对ModelArts模型管理的能力进行封装,实现将训练后的结果注册到模型管理中,便于后续服务部署、更新等步骤的执行。主要应用场景如下: 注册ModelArts训练作业中训练完成的模型。 注册自定义镜像中的模型。
不要将多个容器绑到同一个NPU上,会导致后续的容器无法正常使用NPU功能。 步骤四:获取代码并上传 上传推理代码AscendCloud-CV-6.3.909-xxx.zip到宿主机的工作目录中,包获取路径请参见表2。
不要将多个容器绑到同一个NPU上,会导致后续的容器无法正常使用NPU功能。 步骤四 进入容器运行 进入容器后执行启动命令。
详细信息,请参见分布式训练功能介绍。 更多选项 永久保存日志 选择是否打开“永久保存日志”开关。 开关关闭(默认关闭):表示不永久保存日志,则任务日志会在30天后会被清理。可以在任务详情页下载全部日志至本地。
qwen2-72B、llama2-70B)等sft训练完成后多线程退出时报“torch.distributed.DistStoreError: Socket Timeout”时请参考问题4:Error waiting on exit barrier错误 需要开启profiling功能进行性能数据采集和解析请参考录制
查询训练作业版本列表 功能介绍 根据作业ID查看指定的训练作业版本。 URI GET /v1/{project_id}/training-jobs/{job_id}/versions 参数说明如表1所示。
部署服务 功能介绍 将模型部署为服务。 公共池中挂载密钥,支持HCS第三方用户使用secret_volumes字段来进行密钥挂载,且不提供UI界面,只能通过内部接口进行调用。 支持在modelarts边缘服务通过service_secrets来挂载密钥管理当中的密钥。