检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
Neural Networks)是华为公司针对AI场景推出的异构计算架构,通过提供多层次的编程接口,支持用户快速构建基于昇腾平台的AI应用和业务。包括: AscendCL:昇腾硬件的统一编程接口,包含了编程模型、硬件资源抽象、AI任务及内核管理、内存管理、模型和算子调用、媒体预
预训练数据处理 训练前需要对数据集进行预处理,转化为.bin和.idx格式文件,以满足训练要求。 Alpaca数据处理说明 数据预处理脚本preprocess_data.py存放在代码包的“llm_train/AscendSpeed/ModelLink/tools/”目录中,脚本具体内容如下。
获取训练作业支持的公共规格 功能介绍 获取训练作业支持的公共规格。 调试 您可以在API Explorer中调试该接口,支持自动认证鉴权。API Explorer可以自动生成SDK代码示例,并提供SDK代码示例调试功能。 URI GET /v2/{project_id}/training-job-flavors
例如: 增量训练 分布式训练 训练加速 训练高可靠性 查看训练结果和日志 查看训练作业详情 训练作业运行中或运行结束后,可以在训练作业详情页面查看训练作业的参数设置,训练作业事件等。 查看训练作业日志 训练日志用于记录训练作业运行过程和异常信息,可以通过查看训练作业日志定位作业运行中出现的问题。
当对创建的训练作业不满意时,您可以单击操作列的复制,重新创建训练作业。在重创训练作业页面,会自动填入上一次训练作业设置的参数,您仅需在原来的基础上进行修改即可重新创建训练作业。 停止训练作业 在训练作业列表中,针对“创建中”、“等待中”、“运行中”的训练作业,您可以单击“操作”列的“终止”,停止正在运行中的训练作业。
这里开始输出常见的训练日志文件。随着epoch++,loss下降,学习率也在增加,这正是AI训练的优势,可以随时地在训练过程中调整一些超参。 训练结束,可以查看p1\yolo\output和p1\yolo\log 做进一步的分析 modelarts平台会保存每一次的训练记录,这样
发布需求 如果你已经注册成为了AI Gallery平台上的合作伙伴,你可以在AI Gallery上发布你的需求。 在“AI Gallery”页面中,单击右上角“我的Gallery > 我的主页”进入个人中心页面。 左侧菜单栏选择“我的需求”进入我的需求列表页,单击右上方的“发布”,进入发布需求页面。
job_name:可选参数,训练任务名,便于区分和记忆。 本地单机调试训练任务开始后,SDK会依次帮助用户完成以下流程: 初始化训练作业,如果2指定的训练数据在OBS上,这里会将数据下载到local_path中。 执行训练任务,用户的训练代码需要将训练输出保存在4中指定的local_path中。
调用成功时无此字段。 job_id Long 训练作业的ID。 job_name String 训练作业的名称。 job_desc String 训练作业的描述信息。 version_count Long 训练作业的版本数。 versions JSON Array 训练作业的运行版本参数。该样例请参考响应样例。属性详情参见表4。
OOM导致训练作业失败 问题现象 因为OOM导致的训练作业失败,会有如下几种现象。 错误码返回137,如下图所示。 Modelarts Service Log Trainina end with return code: 137 Modelarts Service Log]handle
训练日志包括普通训练日志和Ascend相关日志。 普通日志说明:当使用Ascend之外的资源训练时仅产生普通训练日志,普通日志中包含训练进程日志、pip-requirement.txt安装日志和ModelArts平台日志。 Ascend场景日志说明:使用Ascend资源训练时会产
模型训练结束后,训练模型以及相关输出信息需保存在OBS路径。“输出”数据默认配置为模型输出,代码参数为“train_url”,也支持用户根据1的算法代码自定义输出路径参数。 在创建训练作业时,填写输入路径和输出路径。 训练输入选择对应的OBS路径或者数据集路径,训练输出选择对应的OBS路径。
预训练 前提条件 已上传训练代码、训练权重文件和数据集到SFS Turbo中。 Step1 在Notebook中修改训练超参配置 以llama2-13b预训练为例,执行脚本0_pl_pretrain_13b.sh。 修改模型训练脚本中的超参配置,必须修改的参数如表1所示。其他超参
使用预置算法训练时,训练失败,报“bndbox”错误 问题现象 使用预置算法创建训练作业,训练失败,日志中出现如下报错。 KeyError: 'bndbox' 原因分析 用于训练的数据集中,使用了“非矩形框”标注。而预置使用算法不支持“非矩形框”标注的数据集。 处理方法 此问题有两种解决方法:
训练作业的日志出现detect failed(昇腾预检失败) 问题现象 训练启动的日志出现如下相关错误: time="2023-05-27T07:07:08Z" level=error msg="detect failed, error: dsmi-checker detect failed
外网访问限制 日志提示“ Network is unreachable” 运行训练作业时提示URL连接超时 父主题: 训练作业
AIGC工具tailor使用指导 tailor简介 tailor是AIGC场景下用于模型转换(onnx到mindir)和性能分析的辅助工具,当前支持以下功能。 表1 功能总览 功能大类 具体功能 模型转换 固定shape转模型 动态shape传入指定档位转模型 支持fp32 支持AOE优化
分布式训练功能介绍 ModelArts提供了如下能力: 丰富的官方预置镜像,满足用户的需求。 支持基于预置镜像自定义制作专属开发环境,并保存使用。 丰富的教程,帮助用户快速适配分布式训练,使用分布式训练极大减少训练时间。 分布式训练调测的能力,可在PyCharm/VSCode/J
ain 加载上一步预训练后保存的权重文件。 TRAIN_ITERS 300 训练周期,必须大于上次保存训练的周期次数。 RUN_TYPE retrain 必填。训练脚本类型,retrain表示断点续训练。 断点续训练操作过程 baichuan2-13b的断点续训脚本baichuan2
String 训练作业ID。获取方法请参见查询训练作业列表。 task_id 是 String 训练作业的任务名称。可从训练作业详情中的status.tasks字段中获取。 project_id 是 String 用户项目ID。获取方法请参见获取项目ID和名称。 training_job_id