检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
max_model_len。 解决方法:修改config.json文件中的"seq_length"的值,"seq_length"需要大于等于 --max-model-len的值。config.json存在模型对应的路径下,例如:/data/nfs/benchmark/tokenize
必须修改。用于指定模板。如果设置为"qwen",则使用Qwen模板进行训练,模板选择可参照表1中的template列 output_dir /home/ma-user/ws/Qwen2-72B/sft-4096 必须修改。指定输出目录。训练过程中生成的模型参数和日志文件将保存在这个目录下。用户根据自己实际要求适配。
自定义镜像训练作业的启动命令。 log_url 否 String 训练作业日志的保存位置,是一个OBS路径,如"obs://xx/yy/zz/"。 local_code_dir 否 String 算法的代码目录下载到训练容器内的本地路径。规则: 必须为/home下的目录。 v1兼容模式下,当前字段不生效。
必须修改。用于指定模板。如果设置为"qwen",则使用Qwen模板进行训练,模板选择可参照表1中的template列 output_dir /home/ma-user/ws/Qwen2-72B/sft-4096 必须修改。指定输出目录。训练过程中生成的模型参数和日志文件将保存在这个目录下。用户根据自己实际要求适配。
存储路径。 如果type为“obs”类型,该值必须填写,该值需为有效的OBS桶路径,且以“/”结束。不能指定为OBS桶的根目录,需指定为OBS桶下的具体目录。 如果type为“obsfs”类型,该值需为有效的OBS并行文件系统的桶名(当前CCE不支持挂载子目录)。 如果type为“evs”类型,该值不需要填写。
可创建一个主题。 单击主题名称“操作”列的“更多 > 设置主题策略”。 选择APM,即允许AOM的告警触发SMN服务。 图5 设置主题策略 单击主题名称“操作”列的“添加订阅”。订阅成功后,一旦满足告警条件,那么就会收到通知。 选择合适的协议,如邮件,短信等,并填写终端,如邮件地址,手机号等。单击确认。
8:图像的饱和度与训练数据集的特征分布存在较大偏移。 9:图像的色彩丰富程度与训练数据集的特征分布存在较大偏移。 10:图像的清晰度与训练数据集的特征分布存在较大偏移。 11:图像的目标框数量与训练数据集的特征分布存在较大偏移。 12:图像中目标框的面积标准差与训练数据集的特征分布存在较大偏移。
6。 适配的CANN版本是cann_8.0.rc3。 资源规格要求 本文档中的模型运行环境是ModelArts Lite的Lite k8s Cluster。推荐使用“西南-贵阳一”Region上的资源和Ascend Snt9B。 支持的模型列表和权重文件 本方案支持vLLM的v0.6
odelArts的训练环境、贴近本地开发习惯地编写启动命令,ModelArts提供了一个训练作业场景下的IDE插件ModelArts-HuaweiCloud,用户通过简易的操作,实现在本地IDE中进行训练配置、资源监控、作业管理、代码管理等动作。 本章节介绍如何使用VS Code插件创建训练作业并调试。
指定每个设备的训练批次大小 gradient_accumulation_steps 8 指定梯度累积的步数,这可以增加批次大小而不增加内存消耗。可根据自己要求适配 num_train_epochs 5 表示训练轮次,根据实际需要修改。一个Epoch是将所有训练样本训练一次的过程。可根据自己要求适配
登录管理控制台,可单击控制台右上角的账户名,在菜单栏中单击“我的凭证”,进入“我的凭证”页面。 在“我的凭证 > 访问密钥”中,单击“新增访问密钥”。 在“新增访问密钥”弹窗中,填写该密钥的描述说明,单击“确定”。根据提示单击“立即下载”,下载密钥。密钥文件会直接保存到浏览器默认的下载文件夹中,文件名为“credentials
total_count Integer 不分页的情况下,符合查询条件的总服务数量。 count Integer 当前查询结果的服务数量,不设置offset、limit查询参数时,count与total相同。 services service结构数组 查询到的服务集合。 表3 service结构
nd) 训练框架的自定义镜像约束 推荐自定义镜像使用ubuntu-18.04的操作系统,避免出现版本不兼容的问题。 自定义镜像的大小推荐15GB以内,最大不要超过资源池的容器引擎空间大小的一半。镜像过大会直接影响训练作业的启动时间。 ModelArts公共资源池的容器引擎空间为5
0”,存在创建并使用的工作空间,以实际取值为准。 labelSelector 否 String 标签筛选。 status 否 String 资源池状态。状态为空时,返回当前有效的资源池,包括创建中和创建成功的资源池。可选值如下: created: 创建成功的资源池。 failed
Gallery,进入示例的详情页面查看示例。 进入AI Gallery首页。选择“项目”,进入项目列表页面。 在搜索框中输入创建好的Notebook名称,单击页签进入详情页。 编辑资产详情 资产发布成功后,发布者可以进入详情页修改该资产的名称、描述,让资产更吸引人。也可以修改资产的可见性。 编辑Notebook介绍
],列表中元素“service_instance”对象即为服务管理章节描述的可调用服务接口。 支持按照检索参数查询服务列表,返回满足检索条件的服务list,检索参数如表1所示。 在查询列表时,返回list的同时,默认会打印模型列表的详细信息,如表2和表3所示。 表1 查询检索参数说明 参数 是否必选
开发环境的应用示例 本节通过调用一系列API,以创建开发环境实例为例介绍ModelArts API的使用流程。 概述 创建开发环境实例的流程如下: 调用认证鉴权接口获取用户Token,在后续的请求中需要将Token放到请求消息头中作为认证。 调用查询支持的镜像列表接口查看开发环境的镜像类型和版本。
object 资源池的metadata信息。 spec PoolSpecModel object 资源池的期望信息。 status PoolStatus object 资源池的状态信息。 表11 PoolMetadata 参数 参数类型 描述 name String 系统自动生成的pool名称,相当于pool
的完整代码示例,供用户学习参考。 训练流程简述 相比于DP,DDP能够启动多进程进行运算,从而大幅度提升计算资源的利用率。可以基于torch.distributed实现真正的分布式计算,具体的原理此处不再赘述。大致的流程如下: 初始化进程组。 创建分布式并行模型,每个进程都会有相同的模型和参数。
object 资源池的metadata信息。 spec PoolSpecModel object 资源池的期望信息。 status PoolStatus object 资源池的状态信息。 表4 PoolMetadata 参数 参数类型 描述 name String 系统自动生成的pool名称,相当于pool