检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
用户使用torch报错Unexpected error from cudaGetDeviceCount 问题现象 在Notebook执行兼容gpu的脚本时报错不兼容,但是通过nvcc --version排查显示是兼容。 import torch import sys print('
哪里可以了解Atlas800训练服务器硬件相关内容 场景描述 本文提供Atlas800训练服务器硬件相关指南,包括三维视图、备件信息、HCCL常用方法以及网卡配置信息。 Atlas 800训练服务器三维视图 Atlas 800 训练服务器(型号9000)是基于华为鲲鹏920+Snt9
具体规格的空间大小可参见训练环境中不同规格资源“/cache”目录的大小 如数据大小已超过/cache目录大小,则可以考虑通过SFS来额外挂载数据盘进行扩容。 将数据和checkpoint保存在/cache目录或者/home/ma-user/目录。
训练作业运行失败,出现NCCL报错 问题现象 训练作业的状态“运行失败”,查看训练作业的“日志”,存在NCCL的报错,例如“NCCL timeout”、“RuntimeError: NCCL communicator was aborted on rank 7”、“NCCL WARN
登录ECS控制台,购买弹性云服务器,镜像选择“公共镜像”,推荐使用ubuntu18.04的镜像;系统盘设置为100GiB。具体操作请参考购买并登录弹性云服务器。 图2 选择镜像和磁盘 购买弹性公网IP并绑定到弹性云服务器。具体操作请参考配置网络。 配置VM环境。
在MaaS应用实践中心查看应用解决方案 ModelArts Studio大模型即服务平台提供了MaaS应用实践中心,为具体的应用场景提供一整套解决方案。 应用中心介绍 “MaaS应用实践中心”提供基于行业客户应用场景的AI解决方案。MaaS提供的模型服务和华为云各AI应用层构建工具之间相互连通
工作空间 ModelArts的用户需要为不同的业务目标开发算法、管理和部署模型,此时可以创建多个工作空间,把不同应用开发过程的输出内容划分到不同工作空间中,便于管理和使用。 工作空间支持3种访问控制: PUBLIC:租户(主账号和所有子账号)内部公开访问。 PRIVATE:仅创建者和主账号可访问
图5 创建作业入口 (可选)设置中转目录:中转目录支持OBS路径和SFS盘挂载路径。如果已经在步骤3配置,此处会自动显示中转目录。 如果设置的是OBS路径,单击“提交作业”后,插件会自动将当前打开的项目文件整体上传至OBS中转目录上。
获取项目ID和名称 操作场景 在调用接口的时候,部分请求中需要填入项目ID或项目名称,所以需要获取到项目ID和名称。有如下两种获取方式: 从控制台获取项目ID和名称 调用API获取项目ID 从控制台获取项目ID和名称 从控制台获取项目ID(project_id)和名称(project
精度校验 转换模型后执行推理前,可以使用benchmark工具对MindSpore Lite云侧推理模型进行基准测试。它不仅可以对MindSpore Lite云侧推理模型前向推理执行耗时进行定量分析(性能),还可以通过指定模型输出进行可对比的误差分析(精度)。 精度测试 benchmark
基于MindSpore Lite的模型转换 迁移推理业务的整体流程如下: 模型准备 转换关键参数准备 模型转换 推理应用适配 主要通过MindSpore Lite(简称MSLite)进行模型的转换,进一步通过MindSpore Runtime支持昇腾后端的能力来将推理业务运行到昇腾设备上
使用AWQ量化工具转换权重 AWQ(W4A16)量化方案能显著降低模型显存以及需要部署的卡数。降低小batch下的增量推理时延。支持AWQ量化的模型列表请参见支持的模型列表和权重文件。 本章节介绍如何在Notebook使用AWQ量化工具实现推理量化,量化方法为per-group。
推理精度测试 本章节介绍如何进行推理精度测试,数据集是ceval_gen、mmlu_gen。 前提条件 确保容器可以访问公网。 Step1 配置精度测试环境 获取精度测试代码。精度测试代码存放在代码包AscendCloud-LLM的llm_tools/llm_evaluation目录中
数据管理权限 表1 数据集管理的细化权限说明 权限 对应API接口 授权项 依赖的授权项 IAM项目 企业项目 查询数据集列表 GET /v2/{project_id}/datasets modelarts:dataset:list - √ √ 创建数据集 POST /v2/{project_id
dataVolume Array of dataVolume objects 数据盘列表。 billingModes Array of integers 资源规格支持的计费模式。可选值如下: 0:按需计费 1:包周期计费 billingCode String 资源规格编码。
查询工作空间列表 功能介绍 查询工作空间列表,响应消息体中包含详细信息。 调试 您可以在API Explorer中调试该接口,支持自动认证鉴权。API Explorer可以自动生成SDK代码示例,并提供SDK代码示例调试功能。 URI GET /v1/{project_id}/workspaces
Notebook的自定义镜像制作方法 用户在使用ModelArts开发环境时,经常需要对开发环境进行一些改造,如安装、升级或卸载一些包。但是某些包的安装升级需要root权限,运行中的Notebook实例中无root权限,所以在Notebook实例中安装需要root权限的软件,目前在预置的开发环境镜像中是无法实现的
使用AWQ量化工具转换权重 AWQ(W4A16/W8A16)量化方案能显著降低模型显存以及需要部署的卡数。降低小batch下的增量推理时延。支持AWQ量化的模型列表请参见支持的模型列表和权重文件。 本章节介绍如何在Notebook使用AWQ量化工具实现推理量化。 量化方法:W4A16
--code-dir String 是 训练源代码的OBS路径。 --data-url String 是 训练数据的OBS路径。 --log-url String 是 存放训练生成日志的OBS路径。
迁移过程使用工具概览 基础的开发工具在迁移的预置镜像和开发环境中都已经进行预置,用户原则上不需要重新安装和下载,如果预置的版本不满足要求,用户可以执行下载和安装与覆盖操作。 模型自动转换评估工具Tailor 为了简化用户使用,ModelArts提供了Tailor工具,将模型转换、精度