检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
各个模型深度学习训练加速框架的选择 LlamaFactory框架使用两种训练框架: DeepSpeed和Accelerate都是针对深度学习训练加速的工具,但是它们的实现方式和应用场景有所不同。 DeepSpeed是一种深度学习加速框架,主要针对大规模模型和大规模数据集的训练。D
景。可根据最终部署环境和开发者需求的推理速度,自动调优并生成满足要求的模型。 费用说明:本案例使用过程中,从AI Gallery下载数据集免费,但是数据集存储在OBS桶中会收取少量费用,具体计费请参见OBS价格详情页。 在ModelArts上运行训练作业、将模型部署为在线服务会收
String 规格类别,可选值如下: DEFAULT:CodeLab规格。 NOTEBOOK:Notebook规格。 free Boolean 是否为免费规格。 gpu GPUInfo object GPU信息。 id String 规格ID。 memory Long 内存大小。 name String
的路径。 “训练规格” 选择自动学习训练节点所使用的资源规格,以实际界面显示为准,将会根据不同的规格计费。 说明: 只有北京四区域支持限时免费规格。 如果您购买了套餐包,可优先选择您对应规格的套餐包,在“配置费用”处会显示您的套餐余量,以及超出的部分如何计费,请您关注,避免造成不必要的资源浪费。
的路径。 “训练规格” 选择自动学习训练节点所使用的资源规格,以实际界面显示为准,将会根据不同的规格计费。 说明: 只有北京四区域支持限时免费规格。 如果您购买了套餐包,可优先选择您对应规格的套餐包,在“配置费用”处会显示您的套餐余量,以及超出的部分如何计费,请您关注,避免造成不必要的资源浪费。
的路径。 “训练规格” 选择自动学习训练节点所使用的资源规格,以实际界面显示为准,将会根据不同的规格计费。 说明: 只有北京四区域支持限时免费规格。 如果您购买了套餐包,可优先选择您对应规格的套餐包,在“配置费用”处会显示您的套餐余量,以及超出的部分如何计费,请您关注,避免造成不必要的资源浪费。
的路径。 “训练规格” 选择自动学习训练节点所使用的资源规格,以实际界面显示为准,将会根据不同的规格计费。 说明: 只有北京四区域支持限时免费规格。 如果您购买了套餐包,可优先选择您对应规格的套餐包,在“配置费用”处会显示您的套餐余量,以及超出的部分如何计费,请您关注,避免造成不必要的资源浪费。
“资源池”:选择“公共资源池”。 “模型来源”和“选择模型及版本”:会自动选择模型和版本号。 “计算节点规格”:在下拉框中选择“限时免费”资源,勾选并阅读免费规格说明。 其他参数可使用默认值。 如果限时免费资源售罄,建议选择收费CPU资源进行部署。当选择收费CPU资源部署在线服务时会收取少量资源费用,具体费用以界面信息为准。
实例状态,缺省时返回全部状态。包括: CREATE_QUEUING,免费资源创建排队中 CREATING,创建中 CREATE_FAILED,创建失败 START_QUEUING,免费资源启动排队中 READY_TO_START,免费资源等待启动 STARTING,启动中 RESTARTING,重启中
的路径。 “训练规格” 选择自动学习训练节点所使用的资源规格,以实际界面显示为准,将会根据不同的规格计费。 说明: 只有北京四区域支持限时免费规格。 如果您购买了套餐包,可优先选择您对应规格的套餐包,在“配置费用”处会显示您的套餐余量,以及超出的部分如何计费,请您关注,避免造成不必要的资源浪费。
是否必选 参数类型 描述 feature 否 String 实例类别,默认为NOTEBOOK。枚举值如下: DEFAULT:CodeLab免费规格实例,每个用户最多只能创建一个。 NOTEBOOK:计费规格实例。 limit 否 Integer 每一页的数量,默认值10。 name
数据集对象:使用准备数据集章节下载的数据集即可,填写相应的数据集名称以及版本号。 训练资源规格:配置计算资源。由于举例的算法只能跑GPU,此处必须配置GPU类型的资源,可使用免费规格(modelarts.p3.large.public.free)。 配置项修改完成后执行如下代码。 workflow.release_and_run()
ook实例时需要的相关配置。 feature 否 String 实例类别,默认为NOTEBOOK。枚举值: DEFAULT:CodeLab免费规格实例,每个用户最多只能创建一个。 NOTEBOOK:计费规格实例。 flavor 是 String 实例的机器规格。如下规格仅供参照,实际支持规格以具体区域为准。
重置节点操作。 GPU和NPU规格,重置节点完成后,节点可能会出现驱动升级的现象,请耐心等待。 修复节点 修复节点功能是白名单功能,如果有试用需求,请提工单申请权限。 若资源池节点发生硬件故障,修复按钮变为可单击状态,此时可单击“修复”按钮,对节点进行修复,待修复完成后,节点状态会变为“可用”。
CodeLab(JupyterLab),让AI探索&教学更简单 云原生Notebook,案例内容秒级接入与分享 Serverless化实例管理,资源自动回收 免费算力,规格按需切换 亮点特性1:远程开发 - 支持本地IDE远程访问Notebook Notebook提供了远程开发功能,通过开启SSH连
了两个强大的工具:Megatron-LM和DeepSpeed,可在具有分布式计算能力的系统上进行训练,并且充分利用了多个GPU和深度学习加速器的并行处理能力。可以高效地训练大规模的语言模型。 Megatron-LM是一个用于大规模语言建模的模型。它基于GPT(Generative
产品优势 ModelArts服务具有以下产品优势。 稳定安全的算力底座,极快至简的模型训练 支持万节点计算集群管理 大规模分布式训练能力,加速大模型研发 提供高性价比国产算力 多年软硬件经验沉淀,AI场景极致优化 加速套件,训练、推理、数据访问多维度加速 一站式端到端生产工具链,一致性开发体验
示例:创建DDP分布式训练(PyTorch+NPU) 本文介绍了使用训练作业的自定义镜像+自定义启动命令来启动PyTorch DDP on Ascend加速卡训练。 前提条件 需要有Ascend加速卡资源池。 创建训练作业 本案例创建训练作业时,需要配置如下参数。 表1 创建训练作业的配置说明
是否打开数据采集,默认“false”。 transition_at Number 服务状态转化时间。 is_free Boolean 服务是否是免费规格类型。 additional_properties Map<String,String> 服务附加属性,未配置则不返回。 表6 Schedule
工作空间ID。未创建工作空间时默认值为“0”,存在创建并使用的工作空间,以实际取值为准。 feature String 实例类别。枚举值: DEFAULT:CodeLab免费规格实例,每个用户最多只能创建一个。 NOTEBOOK:计费规格实例。 billing_items Array of strings 计费资源类型。枚举值: