检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
场景介绍 方案概览 本文档利用训练框架PyTorch_npu+华为自研Ascend Snt9B硬件,为用户提供了常见主流开源大模型在ModelArts Standard上的预训练和全量微调方案。 本方案目前仅适用于部分企业客户,完成本方案的部署,需要先联系您所在企业的华为方技术支持。
查询服务监控信息 查询当前服务对象监控信息。 示例代码 在ModelArts notebook平台,Session鉴权无需输入鉴权参数。其它平台的Session鉴权请参见Session鉴权。 方式1:根据部署在线服务生成的服务对象进行查询服务监控 1 2 3 4 5 6 7 from
查询训练作业的运行指标 示例代码 在ModelArts notebook平台,Session鉴权无需输入鉴权参数。其它平台的Session鉴权请参见Session鉴权。 方式一:根据指定的job_id查询。 from modelarts.session import Session
动态挂载OBS 功能介绍 在运行中的Notebook实例,支持将“OBS并行文件系统”挂载到实例中指定的文件目录,挂载后可以在容器中以文件系统操作方式完成OBS并行文件系统对象的读写。 接口约束 暂无约束 调试 您可以在API Explorer中调试该接口,支持自动认证鉴权。API
查询推理服务标签 功能介绍 查询当前项目下的推理服务标签,默认查询所有工作空间,无权限不返回标签数据。 调试 您可以在API Explorer中调试该接口,支持自动认证鉴权。API Explorer可以自动生成SDK代码示例,并提供SDK代码示例调试功能。 URI GET /v1
给子账号配置文件夹级的SFS Turbo访问权限 场景描述 本文介绍如何配置文件夹级的SFS Turbo访问权限,实现在ModelArts中访问挂载的SFS Turbo时,只允许子账号访问特定的SFS Turbo文件夹内容。 给子账号配置文件夹级的SFS Turbo访问权限为白名
SFT全参微调训练任务 Step1 上传训练权重文件和数据集 如果在准备代码和数据阶段已经上传权重文件和数据集到容器中,可以忽略此步骤。 如果未上传训练权重文件和数据集到容器中,具体参考上传代码和权重文件到工作环境和上传数据到指定目录章节完成。训练脚本中会自动执行训练前的权重转换操作和数据处理操作。
创建训练作业参数 功能介绍 创建训练作业参数。 URI POST /v1/{project_id}/training-job-configs 参数说明如表1所示。 表1 参数说明 参数 是否必选 参数类型 说明 project_id 是 String 用户项目ID。获取方法请参见获取项目ID和名称。
如何上传数据至OBS? 使用ModelArts进行AI模型开发时,您需要将数据上传至对象存储服务(OBS)桶中。您可以登录OBS管理控制台创建OBS桶,并在您创建的OBS桶中创建文件夹,然后再进行数据的上传,OBS上传数据的详细操作请参见《对象存储服务快速入门》。 您在创建OBS
查询专属资源池作业统计信息 功能介绍 查询专属资源池作业统计信息。 调试 您可以在API Explorer中调试该接口,支持自动认证鉴权。API Explorer可以自动生成SDK代码示例,并提供SDK代码示例调试功能。 URI GET /v2/{project_id}/stat
ECS获取和上传基础镜像 Step1 创建镜像组织 在SWR服务页面创建镜像组织。 图1 创建镜像组织 Step2 登录ECS服务器 根据创建ECS服务器创建完成ECS服务器后,单击“远程登录”,可使用华为CloudShell远程登录如图所示。后续安装Docker、获取镜像、构建镜像等操作均在该ECS上进行。
删除资源标签 功能介绍 删除服务(目前只支持在线服务)的标签,支持批量删除。 调试 您可以在API Explorer中调试该接口,支持自动认证鉴权。API Explorer可以自动生成SDK代码示例,并提供SDK代码示例调试功能。 URI DELETE /v1/{project_
删除API 功能介绍 删除指定的API,只有对API所属服务有删除权限的用户才可以删除API。 调试 您可以在API Explorer中调试该接口,支持自动认证鉴权。API Explorer可以自动生成SDK代码示例,并提供SDK代码示例调试功能。 URI DELETE /v1/
查询训练作业指定任务的日志(OBS链接) 功能介绍 查询训练作业指定任务的日志(OBS临时链接,有效期5分钟),可全量查看或直接下载。 调试 您可以在API Explorer中调试该接口,支持自动认证鉴权。API Explorer可以自动生成SDK代码示例,并提供SDK代码示例调试功能。
ECS获取和上传基础镜像 Step1 创建镜像组织 在SWR服务页面创建镜像组织。 图1 创建镜像组织 Step2 登录ECS服务器 根据创建ECS服务器创建完成ECS服务器后,单击“远程登录”,可使用华为CloudShell远程登录如图所示。后续安装Docker、获取镜像、构建镜像等操作均在该ECS上进行。
添加资源标签 功能介绍 给指定Notebook资源添加标签,支持批量添加,当添加的标签key已存在,则覆盖该标签的value。 调试 您可以在API Explorer中调试该接口,支持自动认证鉴权。API Explorer可以自动生成SDK代码示例,并提供SDK代码示例调试功能。
更新训练作业参数 功能介绍 更新训练作业参数。 URI PUT /v1/{project_id}/training-job-configs/{config_name} 参数说明如表1所示。 表1 参数说明 参数 是否必选 参数类型 说明 project_id 是 String 用
LoRA微调训练 前提条件 已上传训练代码、训练权重文件和数据集到SFS Turbo中,具体参考代码上传至OBS和使用Notebook将OBS数据导入SFS Turbo。 Step1 在Notebook中修改训练超参配置 以llama2-13b LORA微调为例,执行脚本0_pl_lora_13b
ECS获取和上传基础镜像 Step1 创建ECS 下文中介绍如何在ECS中构建一个训练镜像,请参考ECS文档购买一个Linux弹性云服务器。完成网络配置、高级配置等步骤,可根据默认选择,或进行自定义。创建完成后,单击“远程登录”,后续安装Docker等操作均在该ECS上进行。 注
VS Code连接远端Notebook时报错“XHR failed” 问题现象 VS Code连接远端Notebook时报错“XHR failed”。 原因分析 可能是所在环境的网络有问题,无法自动下载VS Code Server,请手动安装。 解决方法 打开VS Code,选择