检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
在创建训练作业前,推荐您先使用ModelArts开发环境调试训练代码,避免代码迁移过程中的错误。 直接使用线上notebook环境调试请参考使用JupyterLab开发模型。 配置本地IDE(Pycharm或者VSCode)联接云上环境调试请参考使用本地IDE开发模型。 父主题: GPU相关问题
odelArts提供了即开即用的云上集成开发环境,包含迁移所需要的算力资源、AI框架、昇腾开发套件以及迁移调优工具链,最大程度减少客户自行配置环境的复杂度。 范围 本文涉及PyTorch训练的单卡和分布式业务迁移到昇腾的业务范围。当前针对常见的开源LLM/AIGC等领域的开源模型
--tensor-model-parallel-size:${TP}张量并行数,需要与训练脚本中的TP值配置一样。 --pipeline-model-parallel-size:${PP}流水线并行数,需要与训练脚本中的PP值配置一样。 --load-dir:加载转换模型权重路径。 --save-dir :
运行过程中,ModelArts后台通过指标正则表达式获取搜索指标参数,朝指定的优化方向进行超参优化。用户需要在代码中打印搜索参数并在控制台配置以下参数。 图1 设置算法搜索功能 搜索指标 搜索指标为目标函数的值,通常可以设置为loss、accuracy等。通过优化搜索指标的目标值
选择自动学习训练节点所使用的资源规格,以实际界面显示为准,将会根据不同的规格计费。 说明: 只有北京四区域支持限时免费规格。 如果您购买了套餐包,可优先选择您对应规格的套餐包,在“配置费用”处会显示您的套餐余量,以及超出的部分如何计费,请您关注,避免造成不必要的资源浪费。 单击“创建项目”,物体检测项目
选择自动学习训练节点所使用的资源规格,以实际界面显示为准,将会根据不同的规格计费。 说明: 只有北京四区域支持限时免费规格。 如果您购买了套餐包,可优先选择您对应规格的套餐包,在“配置费用”处会显示您的套餐余量,以及超出的部分如何计费,请您关注,避免造成不必要的资源浪费。 单击“创建项目”,文本分类项目
在创建训练作业前,推荐您先使用ModelArts开发环境调试训练代码,避免代码迁移过程中的错误。 直接使用线上notebook环境调试请参考使用JupyterLab开发模型。 配置本地IDE(Pycharm或者VSCode)联接云上环境调试请参考使用本地IDE开发模型。 父主题: GPU相关问题
Gallery,单击右上角“我的Gallery”进入我的Gallery页面。 单击左上方“创建资产”,选择“模型”。 在“创建模型”弹窗中配置参数,单击“创建”。 表1 创建模型 参数名称 说明 英文名称 必填项,模型的英文名称。 如果没有填写“中文名称”,则资产发布后,在模型页签上会显示该“英文名称”。
获取模型软件包和权重文件 本方案支持的模型对应的软件和依赖包获取地址如表1所示,模型列表、对应的开源权重获取地址如表1所示。 表1 模型对应的软件包和依赖包获取地址 代码包名称 代码说明 下载地址 AscendCloud-6.3.910-xxx.zip 说明: 软件包名称中的xxx表示时间戳。
弹性集群又分为Standard弹性集群与Lite弹性集群。 Standard弹性集群提供独享的计算资源,使用ModelArts Standard开发平台的训练作业、部署模型以及开发环境时,通过Standard弹性集群的计算资源进行实例下发。 Lite弹性集群面向k8s资源型用户,提供托管式k8s集群,并预
选择自动学习训练节点所使用的资源规格,以实际界面显示为准,将会根据不同的规格计费。 说明: 只有北京四区域支持限时免费规格。 如果您购买了套餐包,可优先选择您对应规格的套餐包,在“配置费用”处会显示您的套餐余量,以及超出的部分如何计费,请您关注,避免造成不必要的资源浪费。 单击“创建项目”,声音分类项目
在创建训练作业前,推荐您先使用ModelArts开发环境调试训练代码,避免代码迁移过程中的错误。 直接使用线上notebook环境调试请参考使用JupyterLab开发模型。 配置本地IDE(Pycharm或者VSCode)联接云上环境调试请参考使用本地IDE开发模型。 父主题: GPU相关问题
--tensor-model-parallel-size:${TP}张量并行数,需要与训练脚本中的TP值配置一样。 --pipeline-model-parallel-size:${PP}流水线并行数,需要与训练脚本中的PP值配置一样。 --load-dir:加载转换模型权重路径。 --save-dir :
--tensor-model-parallel-size:${TP}张量并行数,需要与训练脚本中的TP值配置一样。 --pipeline-model-parallel-size:${PP}流水线并行数,需要与训练脚本中的PP值配置一样。 --load-dir:加载转换模型权重路径。 --save-dir :
--tensor-model-parallel-size:${TP}张量并行数,需要与训练脚本中的TP值配置一样。 --pipeline-model-parallel-size:${PP}流水线并行数,需要与训练脚本中的PP值配置一样。 --load-dir:加载转换模型权重路径。 --save-dir :
--tensor-model-parallel-size:${TP}张量并行数,需要与训练脚本中的TP值配置一样。 --pipeline-model-parallel-size:${PP}流水线并行数,需要与训练脚本中的PP值配置一样。 --load-dir:加载转换模型权重路径。 --save-dir :
设置某一作业类型后,即可在此专属资源池中下发此种类型的作业,没有设置的作业类型不能下发。 为了支持不同的作业类型,后台需要在专属资源池上进行不同的初始化操作,例如安装插件、设置网络环境等。其中部分操作需要占据资源池的资源,导致用户实际可用资源减少。因此建议用户按需设置,避免不必要的资源浪费。 约束限制 专属资源池状态处于“运行中”。
--tensor-model-parallel-size:${TP}张量并行数,需要与训练脚本中的TP值配置一样。 --pipeline-model-parallel-size:${PP}流水线并行数,需要与训练脚本中的PP值配置一样。 --load-dir:加载转换模型权重路径。 --save-dir :
致。 在“专属资源池扩缩容”页面,设置“资源配置 > 可用区”,可用区可选择随机分配和指定AZ。 选择随机分配时,扩缩容完成后,节点的可用区分布由系统后台随机选择。 选择指定AZ时,可指定扩缩容完成后节点的可用区分布。 图1 资源配置(单节点方式) 修改容器引擎空间大小 扩容资源
如图1,下发重置节点任务时需要填写以下参数。 表1 重置参数说明 参数名称 说明 操作系统 选择下拉框中支持的操作系统。 配置方式 选择重置节点的配置方式。 按节点比例:重置任务包含多个节点时,可以设置同时被重置节点的最高比例。 按实例数量:重置任务包含多个节点时,可以设置同时被重置节点的最大个数。