检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
准备资源 创建专属资源池 本文档中的模型运行环境是ModelArts Standard,用户需要购买专属资源池,具体步骤请参考创建资源池。 资源规格要求: 计算规格:不同模型训练推荐的NPU卡数请参见不同模型推荐的参数与NPU卡数设置。 硬盘空间:至少200GB。 昇腾资源规格:
管理训练容器环境变量 什么是环境变量 本章节展示了训练容器环境中预置的环境变量,方便用户查看,主要包括以下类型。 路径相关环境变量 分布式训练作业环境变量 NCCL(Nvidia Collective multi-GPU Communication Library)环境变量 OBS环境变量
示例:创建DDP分布式训练(PyTorch+GPU) 本文介绍三种使用训练作业来启动PyTorch DDP训练的方法及对应代码示例。 使用PyTorch预置框架功能,通过mp.spawn命令启动 使用自定义镜像功能 通过torch.distributed.launch命令启动 通过torch
模型调试 训练完成后,可先在开发环境Notebook中创建本地模型,在开发环境Notebook调试完成后再部署到推理服务上。 只支持使用ModelArts Notebook部署本地服务。 示例代码 在ModelArts Notebook平台,Session鉴权无需输入鉴权参数。其
创建Standard专属资源池 本章节主要介绍创建Standard专属资源池的详细操作。 前提条件 已经创建虚拟私有云。 已经创建子网。 步骤一:创建网络 ModelArts网络是承载ModelArts资源池节点的网络连接,基于华为云的VPC进行封装,对用户仅提供网络名称以及CI
查询处理任务列表 功能介绍 查询处理任务列表,包括“特征分析”任务和“数据处理”两大类任务。可通过指定“task_type”参数来单独查询某类任务的列表。 “特征分析”是指基于图片或目标框对图片的各项特征,如模糊度、亮度进行分析,并绘制可视化曲线,帮助处理数据集。 “数据处理”是
Notebook使用场景 ModelArts提供灵活开放的开发环境,您可以根据实际情况选择。 ModelArts提供了CodeLab功能,一方面,一键进入开发环境,同时预置了免费的算力规格,可直接免费体验Notebook功能;另一方面,针对AI Gallery社区发布的Notebook样例(
给子账号配置训练作业基本使用权限 场景描述 本文介绍训练作业场景下子账号所需的基本使用权限,您可参考权限清单新增对应业务场景的权限。示例场景为授权子账号使用自定义镜像训练,数据和代码存放在OBS桶中。以下内容需使用管理账号进行配置。 权限清单 权限 表1 训练作业所需权限 业务场景
分析ModelArts数据集中的数据特征 基于图片或目标框对图片的各项特征,如模糊度、亮度进行分析,并绘制可视化曲线,帮助处理数据集。 您还可以选择数据集的多个版本,查看其可视化曲线,进行对比分析。 背景信息 只有“图片”的数据集,且版本标注类型为“物体检测”和“图像分类”的数据集版本支持数据特征分析。
查看训练作业日志 训练日志定义 训练日志用于记录训练作业运行过程和异常信息,为快速定位作业运行中出现的问题提供详细信息。用户代码中的标准输出、标准错误信息会在训练日志中呈现。在ModelArts中训练作业遇到问题时,可首先查看日志,多数场景下的问题可以通过日志报错信息直接定位。
准备资源 创建专属资源池 本文档中的模型运行环境是ModelArts Standard,用户需要购买专属资源池,具体步骤请参考创建资源池。 资源规格要求: 计算规格:用户可参考表2。 硬盘空间:至少200GB。 昇腾资源规格: Ascend: 1*ascend-snt9b表示昇腾单卡。
场景介绍 方案概览 本文档利用训练框架PyTorch_npu+华为自研Ascend Snt9B硬件,为用户提供了常见主流开源大模型在ModelArts Standard上的预训练和全量微调方案。 本方案目前仅适用于部分企业客户,完成本方案的部署,需要先联系您所在企业的华为方技术支持。
更新开发环境实例信息 功能介绍 该接口用于更新开发环境实例的描述信息或自动停止信息。 URI PUT /v1/{project_id}/demanager/instances/{instance_id} 参数说明如表1所示。 表1 参数说明 参数 是否必选 参数类型 说明 project_id
Ascend-vLLM介绍 Ascend-vLLM概述 vLLM是GPU平台上广受欢迎的大模型推理框架,因其高效的continuous batching和pageAttention功能而备受青睐。此外,vLLM还具备投机推理和自动前缀缓存等关键功能,使其在学术界和工业界都得到了广泛应用。
查询数据集列表 功能介绍 根据指定条件分页查询用户创建的所有数据集。 调试 您可以在API Explorer中调试该接口,支持自动认证鉴权。API Explorer可以自动生成SDK代码示例,并提供SDK代码示例调试功能。 URI GET /v2/{project_id}/datasets
从训练作业中导入模型文件创建模型 在ModelArts中创建训练作业,并完成模型训练,在得到满意的模型后,可以将训练后得到的模型导入至模型管理,方便统一管理,同时支持将模型快速部署上线为服务。 约束与限制 针对使用订阅算法的训练作业,无需推理代码和配置文件,其生成的模型可直接导入ModelArts。
通过运行的实例保存成容器镜像 功能介绍 运行的实例可以保存成容器镜像,保存的镜像中,安装的依赖包(pip包)不丢失,VS Code远程开发场景下,在Server端安装的插件不丢失。 接口约束 暂无约束 调试 您可以在API Explorer中调试该接口,支持自动认证鉴权。API
查询数据处理任务的版本详情 功能介绍 查询数据处理任务的版本详情。 调试 您可以在API Explorer中调试该接口,支持自动认证鉴权。API Explorer可以自动生成SDK代码示例,并提供SDK代码示例调试功能。 URI GET /v2/{project_id}/proc
设置断点续训练 什么是断点续训练 断点续训练是指因为某些原因(例如容错重启、资源抢占、作业卡死等)导致训练作业还未完成就被中断,下一次训练可以在上一次的训练基础上继续进行。这种方式对于需要长时间训练的模型而言比较友好。 断点续训练是通过checkpoint机制实现。 checkp
查询处理任务详情 功能介绍 查询处理任务详情,支持查询“特征分析”任务和“数据处理”两大类任务。可通过指定路径参数“task_id”来查询某个具体任务的详情。 调试 您可以在API Explorer中调试该接口,支持自动认证鉴权。API Explorer可以自动生成SDK代码示例,并提供SDK代码示例调试功能。