检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
部署服务 功能介绍 将模型部署为服务。 调试 您可以在API Explorer中调试该接口,支持自动认证鉴权。API Explorer可以自动生成SDK代码示例,并提供SDK代码示例调试功能。 URI POST /v1/{project_id}/services 表1 路径参数 参数
日志提示“CUDNN_STATUS_NOT_SUPPORTED. ” 问题现象 在pytorch训练时,出现如下报错: RuntimeError: cuDNN error: CUDNN_STATUS_NOT_SUPPORTED. This error may appear if you
创建算法 功能介绍 创建一个算法。 调试 您可以在API Explorer中调试该接口,支持自动认证鉴权。API Explorer可以自动生成SDK代码示例,并提供SDK代码示例调试功能。 URI POST /v2/{project_id}/algorithms 表1 路径参数 参数
查询AI应用详情 功能介绍 查询AI应用详情,根据AI应用ID查询AI应用的详细信息。 调试 您可以在API Explorer中调试该接口,支持自动认证鉴权。API Explorer可以自动生成SDK代码示例,并提供SDK代码示例调试功能。 URI GET /v1/{projec
以PyTorch框架创建训练作业(新版训练) 本节通过调用一系列API,以训练模型为例介绍ModelArts API的使用流程。 概述 使用PyTorch框架创建训练作业的流程如下: 调用认证鉴权接口获取用户Token,在后续的请求中需要将Token放到请求消息头中作为认证。 调
推理服务精度评测 本章节介绍了2种精度测评方式,分别为Lm-eval工具和MME工具。 lm-eval工具适用于语言模型的推理精度测试,数据集包含mmlu、ARC_Challenge、GSM_8k、Hellaswag、Winogrande、TruthfulQA等,该工具为离线测评,不需要启动推理服务。
更新算法 功能介绍 更新算法。 调试 您可以在API Explorer中调试该接口,支持自动认证鉴权。API Explorer可以自动生成SDK代码示例,并提供SDK代码示例调试功能。 URI PUT /v2/{project_id}/algorithms/{algorithm_id}
查询算法详情 功能介绍 根据算法id查询指定算法。 调试 您可以在API Explorer中调试该接口,支持自动认证鉴权。API Explorer可以自动生成SDK代码示例,并提供SDK代码示例调试功能。 URI GET /v2/{project_id}/algorithms/{algorithm_id}
示例:创建DDP分布式训练(PyTorch+GPU) 本文介绍三种使用训练作业来启动PyTorch DDP训练的方法及对应代码示例。 使用PyTorch预置框架功能,通过mp.spawn命令启动 使用自定义镜像功能 通过torch.distributed.launch命令启动 通过torch
上传算法至SFS 下载Swin-Transformer代码。 git clone --recursive https://github.com/microsoft/Swin-Transformer.git 修改lr_scheduler.py文件,把第27行:t_mul=1. 注释掉。
查询Notebook实例列表 功能介绍 查询Notebook实例列表,用户可按需查询满足条件的Notebook实例列表。 接口约束 暂无约束 调试 您可以在API Explorer中调试该接口,支持自动认证鉴权。API Explorer可以自动生成SDK代码示例,并提供SDK代码示例调试功能。
查询所有Notebook实例列表 功能介绍 查询所有Notebook实例列表,用户可按需查询满足条件的Notebook实例列表。 接口约束 暂无约束 调试 您可以在API Explorer中调试该接口,支持自动认证鉴权。API Explorer可以自动生成SDK代码示例,并提供SDK代码示例调试功能。
查询数据集的团队标注任务列表 功能介绍 查询数据集的团队标注任务列表。 调试 您可以在API Explorer中调试该接口,支持自动认证鉴权。API Explorer可以自动生成SDK代码示例,并提供SDK代码示例调试功能。 URI GET /v2/{project_id}/da
更新开发环境实例信息 功能介绍 该接口用于更新开发环境实例的描述信息或自动停止信息。 URI PUT /v1/{project_id}/demanager/instances/{instance_id} 参数说明如表1所示。 表1 参数说明 参数 是否必选 参数类型 说明 project_id
日志提示“cuda runtime error (10) : invalid device ordinal at xxx” 问题现象 训练作业失败,日志报出如下错误: RuntimeError: cuda runtime error (10) : invalid device ordinal
系统容器异常退出 问题现象 在训练创建后出现“系统容器异常退出”的故障。 [ModelArts Service Log]2022-10-11 19:18:23,267 - file_io.py[1ine:748] - ERROR: stat:404 errorCode:NoSuchKey
查询训练作业列表 功能介绍 根据指定查询条件查询用户创建的训练作业列表。 调试 您可以在API Explorer中调试该接口,支持自动认证鉴权。API Explorer可以自动生成SDK代码示例,并提供SDK代码示例调试功能。 URI POST /v2/{project_id}/
GPT-2基于Server适配PyTorch GPU的训练推理指导 场景描述 本文将介绍在GP Ant8裸金属服务器中,使用DeepSpeed框架训练GPT-2(分别进行单机单卡和单机多卡训练)。 训练完成后给出自动式生成内容,和交互式对话框模式。 背景信息 Megatron-DeepSpeed
创建DevServer 功能介绍 创建DevServer。 接口约束 暂无约束 调试 您可以在API Explorer中调试该接口,支持自动认证鉴权。API Explorer可以自动生成SDK代码示例,并提供SDK代码示例调试功能。 URI POST /v1/{project_id}/dev-servers
使用DCGM监控Lite Server资源 场景描述 本文主要介绍如何在Lite Server上配置DCGM监控,用于监控Lite Server上的GPU资源。 DCGM是用于管理和监控基于Linux系统的NVIDIA GPU大规模集群的一体化工具,提供多种能力,包括主动健康监控