检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
在镜像预热中单击编辑图标,填写镜像预热信息。 表1 镜像预热参数 参数名称 说明 镜像来源 可选择“预置”或“自定义”的镜像。 预置:可选择SWR服务上自有的或他人共享的镜像。 自定义:可直接填写镜像地址。 添加镜像密钥 若本租户不具有预热镜像的权限(即非公开/非本租户私有/非他人共享的
支持1~90个字符,请勿在描述中输入涉政、迷信、违禁等相关敏感词,否则发布审核无法通过。 可见范围 “所有用户可见”:表示公开资产,所有用户都可以查看该资产。 “指定用户可见”:输入账号名、账号ID或用户昵称搜索并选择用户,使其可见该资产。 可用范围 选择是否启用“申请用户可用”。 勾选
如果环境中装了多版本的cuda,可以排查LD_LIBRARY_PATH中的cuda优先级,需要手动调整下。 举例:如果cuda只兼容cuda-9.1,查询到LD_LIBRARY_PATH=/usr/local/cuda-11.8/lib64:/usr/local/cuda-9.1/lib64
用户可在AI Gallery上一键下载需要的数据资源到ModelArts数据集。 提供多种数据接入方式,支持用户从OBS,MRS,DLI以及DWS等服务导入用户的数据。 提供18+数据增强算子,帮助用户扩增数据,增加训练用的数据量。 帮助用户提高数据的质量。 提供图像、文本、音频、视频等多
100”用户组,可能会报错“groupadd: GID '100' already exists”。可通过命令“cat /etc/group | grep 100”查询是否已存在gid = 100用户组。 如果已存在“gid = 100”用户组,则该步骤跳过,下文Dockerfile中删除“RUN groupadd
列举一个OBS目录,只返回顶层结果(相对路径),不做递归列举。 例如列举“obs://bucket_name/object_dir”,返回该目录下所有的文件和文件夹,不会递归查询。 假设“obs://bucket_name/object_dir”中有如下结构 1 2 3 4 5 bucket_name |-
为了避免丢失训练进度、浪费算力,开启此功能前请确认代码已适配断点续训,操作指导请参见设置断点续训练。 当训练过程中触发了自动重启,则系统会记录重启信息,在训练作业详情页可以查看故障恢复详情,具体请参见训练作业重调度。 开启无条件自动重启 开启无条件自动重启有2种方式:控制台设置或API接口设置。 控制台设置 在创
限制为64字符)。同一个Step的输入名称不能重复 是 str data 数据集版本发布节点的输入数据对象 是 数据集或标注任务相关对象,当前仅支持Dataset,DatasetConsumption,DatasetPlaceholder,LabelTask,LabelTaskP
长度限制为64字符)。同一个Step的输入名称不能重复 是 str data 数据集标注节点的输入数据对象 是 数据集或标注任务相关对象,当前仅支持Dataset, DatasetConsumption, DatasetPlaceholder,LabelTask,LabelTas
在“物体检测”节点中,待训练状态由“运行中”变为“运行成功”,即完成模型的自动训练。 图2 运行成功 训练完成后,您可以单击物体检测节点上方的按钮,查看相关指标信息,如“准确率”、“评估结果”等。评估结果参数说明请参见表1。 图3 模型评估报告 表1 评估结果参数说明 参数 说明 recall:召回率
orage 表1 路径参数 参数 是否必选 参数类型 描述 instance_id 是 String Notebook实例ID,可通过调用查询Notebook实例列表接口获取。 project_id 是 String 用户项目ID,获取方法请参见获取项目ID和名称。 请求参数 表2
”关键字查看。当容错检查正常通过时,可以减少运行故障上报问题。 容错检查失败时,会打印检查失败的日志。您可以通过在日志中搜索“item”关键字查看失败信息。 如果作业重启次数没有达到设定的次数,则会自动做重新下发作业。您可以通过搜索“error,exiting”关键字查找作业重启失败结束的日志。
作。 在“声音分类”节点中,待训练状态由“运行中”变为“运行成功”,即完成模型的自动训练。 训练完成后,您可以单击声音分类节点上方的按钮,查看相关指标信息,如“准确率”、“评估结果”等。 表1 评估结果参数说明 参数 说明 recall:召回率 被用户标注为某个分类的所有样本中,
ineDistanceThreshold =0.99表示余弦相似度至少为99%,--inputShapes可将模型放入到netron官网中查看。 图1 benchmark对接结果输出示例图 为了简化用户使用,ModelArts提供了Tailor工具便于用户进行Benchmark精
String 用户项目ID。获取方法请参见获取项目ID和名称。 training_job_id 是 String 训练作业ID。获取方法请参见查询训练作业列表。 请求参数 表2 请求Body参数 参数 是否必选 参数类型 描述 tags 是 Array of TmsTag objects
软件包名称中的xxx表示时间戳。 包含了本教程中使用到的模型训练代码。代码包具体说明请参见模型软件包结构说明。 获取路径:Support-E,在此路径中查找下载ModelArts 6.3.912 版本。 说明: 如果上述软件获取路径打开后未显示相应的软件信息,说明您没有下载权限,请联系您所在企业的华为方技术支持下载获取。
度学习训练。通过使用DeepSpeed,可以实现如混合精度训练、ZeRO内存优化等高级特性,以提高训练效率和性能 stage sft 表示当前的训练阶段。可选择值:sft、rm、ppo、dpo。 sft代表指令监督微调; rm代表奖励模型训练; ppo代表PPO训练; dpo代表DPO训练。
在“文本分类”节点中,待训练状态由“运行中”变为“运行成功”,即完成模型的自动训练。 图2 运行成功 训练完成后,您可以单击文本分类节点上方的按钮,查看相关指标信息,如“准确率”、“评估结果”等。评估结果参数说明请参见表1。 图3 模型评估报告 表1 评估结果参数说明 参数 说明 recall:召回率
软件包名称中的xxx表示时间戳。 包含了本教程中使用到的模型训练代码。代码包具体说明请参见模型软件包结构说明。 获取路径:Support-E,在此路径中查找下载ModelArts 6.3.912 版本。 说明: 如果上述软件获取路径打开后未显示相应的软件信息,说明您没有下载权限,请联系您所在企业的华为方技术支持下载获取。
执行训练启动命令后,等待模型载入,当出现“training”关键字时,表示开始训练。训练过程中,训练日志会在最后的Rank节点打印。 图1 等待模型载入 最后,请参考查看日志和性能章节查看预训练的日志和性能。 父主题: 主流开源大模型基于Lite Server适配ModelLink PyTorch NPU训练指导(6