检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
业,提高训练成功率。为了避免丢失训练进度、浪费算力。此功能已适配断点续训练。 图2 开启故障重启 断点续训练是通过checkpoint机制实现。checkpoint机制是在模型训练的过程中,不断地保存训练结果(包括但不限于EPOCH、模型权重、优化器状态、调度器状态)。即便模型训
Launcher页面,可快速创建新的Notebook、Console或其他文件。 创建文件夹。 上传文件。 刷新文件目录。 Git插件,可连接此Notebook实例关联的Github代码库。 表2 插件栏常用插件说明 插件 说明 文件列表。单击此处,将展示此Notebook实例下的所有文件列表。
ndSpore-Lite迁移路线进行介绍。使用ascend-vllm路线的迁移指导会在后续提供,您可以从上面的案例中下载相关代码并直接参考实现源码。 父主题: GPU推理业务迁移至昇腾的通用指导
-s / --service String 否 注册镜像的服务类型,NOTEBOOK或者MODELBOX,默认是NOTEBOOK。 可以输入多个值,如-s NOTEBOOK -s MODELBOX。 -rs / --resource-category String 否 注册镜像能够使用的资源类型,默认是CPU和GPU。
LLM大语言模型训练推理 在ModelArts Studio基于Qwen2-7B模型实现新闻自动分类 主流开源大模型基于Lite Server适配Ascend-vLLM PyTorch NPU推理指导(6.3.912) 主流开源大模型基于Lite Server适配ModelLink
认证用的ak和sk硬编码到代码中或者明文存储都有很大的安全风险,建议在配置文件或者环境变量中密文存放,使用时解密,确保安全; # 本示例以ak和sk保存在环境变量中来实现身份验证为例,运行本示例前请先在本地环境中设置环境变量HUAWEICLOUD_SDK_AK和HUAWEICLOUD_SDK_SK。 __AK
移Standard专属资源池和网络至其他工作空间将资源池移动到对应的工作空间下。 专属资源池可通过标签来进行管理,具体可参见使用TMS标签实现资源分组管理管理专属资源池标签。 当不再需要使用专属资源池时,您可参考释放Standard专属资源池和删除网络删除专属资源池。 父主题: ModelArts
4台8卡Vnt1),存储方案推荐使用“SFS(存放数据)+普通OBS桶(存放代码)”,采用分布式训练。 当使用SFS+OBS的存储方案可以实现存储加速,该方案的端到端实践案例请参见面向AI场景使用OBS+SFS Turbo的存储加速实践。 表1 不同场景所需服务及购买推荐 场景 OBS
装升级请参见Volcano调度器。仅华为云版Volcano插件支持开启路由加速特性。 训练使用的Python版本是3.7或3.9,否则无法实现ranktable路由加速。 训练作业的任务节点数要大于或等于3,否则会跳过ranktable路由加速。建议在大模型场景(512卡及以上)使用ranktable路由加速。
GBoost/MindSpore/Image/PyTorch。 model_algorithm 否 String 模型算法,表示模型的算法实现类型,如果已在模型配置文件中配置,则可不填。如:predict_analysis、object_detection 、image_classification。
Cluster的基本使用流程,帮助您快速上手。 图1 资源池架构图 如图所示为Lite Cluster架构图。Lite Cluster基于CCE服务实现对资源节点的管理,因此,用户首先需要购买一个CCE集群。在ModelArts控制台购买Lite Cluster集群时,ModelArts的
A微调、DPO训练方案。 DPO(Direct Preference Optimization):直接偏好优化方法,通过直接优化语言模型来实现对大模型输出的精确把控,不用进行强化学习,也可以准确判断和学习到使用者的偏好,最后,DPO算法还可以与其他优化算法相结合,进一步提高深度学习模型的性能。
Standard模型训练案例 表3 自定义算法样例列表 样例 镜像 对应功能 场景 说明 使用ModelArts Standard自定义算法实现手写数字识别 PyTorch 自定义算法 手写数字识别 使用用户自己的算法,训练得到手写数字识别模型,并部署后进行预测。 从0制作自定义镜
exemlProjectVersion 自动学习项目的版本 workflow Workflow项目 pool 专属资源池 network 专属资源池网络连接 trainJob 训练作业 trainJobLog 训练作业的运行日志 trainJobInnerModel 系统预置模型 model 模型
Turbo的数据存储方案,不适用于仅OBS存储方案。通过OBS对象存储服务(Object Storage Service)与SFS Turbo文件系统联动,可以实现灵活数据管理、高性能读取等。 约束限制 如果要使用自动重启功能,资源规格必须选择八卡规格。 适配的CANN版本是cann_8.0.rc3,驱动版本是23
务指定路径,输入和输出数据需要配置2个地方: 训练代码中需解析输入路径参数和输出路径参数。ModelArts Standard推荐以下方式实现参数解析。 1 2 3 4 5 6 7 8 9 10 import argparse # 创建解析 parser = argparse
-cn, --class-name TEXT Your application's main class (for Java / Scala apps). --name TEXT Job name. --image
save_path=FLAGS.train_url) 复制数据集到本地 复制数据集到本地主要是为了防止长时间访问OBS容易导致OBS连接中断使得作业卡住,所以一般先将数据复制到本地再进行操作。 数据集复制有两种方式,推荐使用OBS路径复制。 OBS路径(推荐) 直接使用mo
规格:选择1 GPU规格。 存储配置:选择“云硬盘EVS”作为存储位置。 如果需要通过VS Code连接Notebook方式进行代码调试,则需开启“SSH远程开发”并选择密钥对,请参考VS Code连接Notebook方式介绍。 参数填写完成后,单击“立即创建”进行规格确认。 参数确认无误后
认证用的ak和sk硬编码到代码中或者明文存储都有很大的安全风险,建议在配置文件或者环境变量中密文存放,使用时解密,确保安全; // 本示例以ak和sk保存在环境变量中来实现身份验证为例,运行本示例前请先在本地环境中设置环境变量HUAWEICLOUD_SDK_AK和HUAWEICLOUD_SDK_SK。 ak