检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
在ModelArts Standard运行GPU训练任务的准备工作 使用ModelArts Standard的专属资源池训练时,需要完成以下准备工作。 购买服务资源 表1 购买服务资源 服务 使用说明 参考文档 弹性文件服务SFS 弹性文件服务默认为按需计费,即按购买的存储容量和
托管模型到AI Gallery AI Gallery上每个资产的文件都会存储在线上的AI Gallery存储库(简称AI Gallery仓库)里面。每一个模型实例视作一个资产仓库,模型实例与资产仓库之间是一一对应的关系。例如,模型名称为“Test”,则AI Gallery仓库有个
设置训练故障优雅退出 使用场景 随着模型规模和数据集的急剧增长,需要利用大规模的训练集训练大规模的神经网络。在大规模集群分布式训练时,会遇到集群中某个芯片、某台服务器故障,导致分布式训练任务失败。优雅退出是指中断的训练任务支持自动恢复,并可以在上一次训练中断的基础上继续训练,而不用从头开始。
查询标注团队的成员列表 功能介绍 查询标注团队的成员列表。 调试 您可以在API Explorer中调试该接口,支持自动认证鉴权。API Explorer可以自动生成SDK代码示例,并提供SDK代码示例调试功能。 URI GET /v2/{project_id}/workforc
新建Workflow工作流 功能介绍 创建Workflow工作流。可参考如何开发Workflow,创建工作流。 接口约束 无 调试 您可以在API Explorer中调试该接口,支持自动认证鉴权。API Explorer可以自动生成SDK代码示例,并提供SDK代码示例调试功能。 URI
Lite Cluster资源配置流程 本章节介绍Lite Cluster环境配置详细流程,适用于加速卡环境配置。 前提条件 已完成集群资源购买和开通,具体请参见Lite Cluster资源开通。 集群的配置使用需要用户具备一定的知识背景,包括但不限于Kubernetes基础知识、网络知识、存储和镜像知识。
查询数据集的统计信息 功能介绍 查询数据集的统计信息。 调试 您可以在API Explorer中调试该接口,支持自动认证鉴权。API Explorer可以自动生成SDK代码示例,并提供SDK代码示例调试功能。 URI GET /v2/{project_id}/datasets/{
使用SDK调测多机分布式训练作业 代码中涉及到的OBS路径,请用户替换为自己的实际OBS路径。 代码是以PyTorch为例编写的,不同的AI框架之间,整体流程是完全相同的,仅需修改7和11中的 framework_type参数值即可,例如:MindSpore框架,此处framew
Notebook中构建新镜像 ModelArts中注册镜像 通过ECS获取和上传基础镜像将基础镜像上传后,可在SWR中查看已上传的镜像。但在ModelArts中还需要完成镜像注册后,才能在后续的Notebook中使用。 访问ModelArts,在镜像管理中选择注册镜像,如图所示:
开发第一条Workflow 本章节提供了一个基于图像分类算法,构建包含训练单节点的Workflow的样例。更多节点的构建参数请参考创建Workflow节点。 步骤一:安装开发环境 本案例提供了两种安装开发环境的方法,您可根据使用习惯选择。 方法一:使用JupyterLab打开Notebook实例准备环境
推理精度测试 本章节介绍如何进行推理精度测试,数据集是ceval_gen、mmlu_gen。 前提条件 确保容器可以访问公网。 Step1 配置精度测试环境 获取精度测试代码。精度测试代码存放在代码包AscendCloud-LLM的llm_tools/llm_evaluation目录中,代码目录结构如下。
查询用户镜像组列表 功能介绍 查询用户镜像信息概览,以镜像名称作为聚合的信息。 接口约束 暂无约束 调试 您可以在API Explorer中调试该接口,支持自动认证鉴权。API Explorer可以自动生成SDK代码示例,并提供SDK代码示例调试功能。 URI GET /v1/{
查询数据处理任务的版本列表 功能介绍 查询数据处理任务的版本列表。 调试 您可以在API Explorer中调试该接口,支持自动认证鉴权。API Explorer可以自动生成SDK代码示例,并提供SDK代码示例调试功能。 URI GET /v2/{project_id}/proc
查询标注团队列表 功能介绍 查询标注团队列表。 调试 您可以在API Explorer中调试该接口,支持自动认证鉴权。API Explorer可以自动生成SDK代码示例,并提供SDK代码示例调试功能。 URI GET /v2/{project_id}/workforces 表1 路径参数
推理精度测试 本章节介绍如何进行推理精度测试,请在Notebook的JupyterLab中另起一个Terminal,进行推理精度测试。 Step1 配置精度测试环境 获取精度测试代码。精度测试代码存放在代码包AscendCloud-LLM的llm_tools/llm_evaluation目录中,代码目录结构如下。
获取Workflow工作流列表 功能介绍 展示Workflow工作流列表。 接口约束 无 调试 您可以在API Explorer中调试该接口,支持自动认证鉴权。API Explorer可以自动生成SDK代码示例,并提供SDK代码示例调试功能。 URI GET /v2/{project_id}/workflows
训练的数据集预处理说明 以 llama2-13b 举例,运行:0_pl_pretrain_13b.sh 训练脚本后,脚本检查是否已经完成数据集预处理的过程。 如果已完成数据集预处理,则直接执行预训练任务。如果未进行数据集预处理,则会自动执行 scripts/llama2/1_preprocess_data
训练的数据集预处理说明 以llama2-13b举例,使用训练作业运行:0_pl_pretrain_13b.sh训练脚本后,脚本检查是否已经完成数据集预处理。 如果已完成数据集预处理,则直接执行预训练任务。如果未进行数据集预处理,则会自动执行 scripts/llama2/1_preprocess_data
训练的数据集预处理说明 以llama2-13b举例,使用训练作业运行:0_pl_pretrain_13b.sh训练脚本后,脚本检查是否已经完成数据集预处理。 如果已完成数据集预处理,则直接执行预训练任务。如果未进行数据集预处理,则会自动执行 scripts/llama2/1_preprocess_data
配置Workflow的输入输出目录 功能介绍 统一存储主要用于工作流的目录管理,帮助用户统一管理一个工作流中的所有存储路径,主要分为以下两个功能: 输入目录管理:开发者在编辑开发工作流时可以对所有数据的存储路径做统一管理,规定用户按照自己的目录规划来存放数据,而存储的根目录可以根