检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
序列说明 基于vLLM(v0.6.0)部署推理服务时,不同模型推理支持的最小昇腾卡数和对应卡数下的max-model-len长度说明,如下面的表格所示。 以下值是在gpu-memory-utilization为0.9时测试得出,为服务部署所需的最小昇腾卡数及该卡数下推荐的最大ma
序列说明 基于vLLM(v0.6.0)部署推理服务时,不同模型推理支持的最小昇腾卡数和对应卡数下的max-model-len长度说明,如下面的表格所示。 以下值是在gpu-memory-utilization为0.9时测试得出,为服务部署所需的最小昇腾卡数及该卡数下推荐的最大ma
分推理代码实现自己的推理逻辑,出现故障后希望通过故障日志排查定位故障原因,但是通过logger打印日志无法在“在线服务”的日志中查看到部分内容。 原因分析 推理服务的日志如果需要显示出来,需要代码中将日志打印到Console控制台。当前推理基础镜像使用的python的log模块,
序列说明 基于vLLM(v0.5.0)部署推理服务时,不同模型推理支持的最小昇腾卡数和对应卡数下的max-model-len长度说明,如下面的表格所示。 以下值是在gpu-memory-utilization为0.9时测试得出,为服务部署所需的最小昇腾卡数及该卡数下推荐的最大ma
上传数据和算法至SFS(首次使用时需要) 前提条件 ECS服务器已挂载SFS,请参考ECS服务器挂载SFS Turbo存储。 在ECS中已经创建ma-user和ma-group用户,请参考在ECS中创建ma-user和ma-group。 已经安装obsutil,请参考下载和安装obsutil。
序列说明 基于vLLM(v0.6.3)部署推理服务时,不同模型推理支持的最小昇腾卡数和对应卡数下的max-model-len长度说明,如下面的表格所示。 以下值是在gpu-memory-utilization为0.9时测试得出,为服务部署所需的最小昇腾卡数及该卡数下推荐的最大ma
推理服务精度评测 本章节介绍了2种精度测评方式,分别为Lm-eval工具和MME工具。 lm-eval工具适用于语言模型的推理精度测试,数据集包含mmlu、ARC_Challenge、GSM_8k、Hellaswag、Winogrande、TruthfulQA等,该工具为离线测评,不需要启动推理服务。
ModelArts计费模式概述 ModelArts服务提供包年/包月和按需计费两种计费模式,以满足不同场景下的用户需求。如您需要快速了解ModelArts服务不同计费模式的具体价格,请参见ModelArts价格详情。 包年/包月:一种预付费模式,即先付费再使用,按照订单的购买周期
模型训练存储加速 针对AI训练场景中大模型Checkpoint保存和加载带来的I/O挑战,华为云提供了基于对象存储服务OBS+高性能弹性文件服务SFS Turbo的AI云存储解决方案,如下图所示。 SFS Turbo HPC型支持和OBS数据联动,您可以通过SFS Turbo H
弹性云服务器。完成网络配置、高级配置等步骤,可根据默认选择,或进行自定义。创建完成后,单击“远程登录”,后续安装Docker等操作均在该ECS上进行。 注意:CPU架构必须选择鲲鹏计算,镜像推荐选择EulerOS。 图1 购买ECS Step2 创建镜像组织 在SWR服务页面创建镜像组织。
弹性云服务器。完成网络配置、高级配置等步骤,可根据默认选择,或进行自定义。创建完成后,单击“远程登录”,后续安装Docker等操作均在该ECS上进行。 注意:CPU架构必须选择鲲鹏计算,镜像推荐选择EulerOS。 图1 购买ECS Step2 创建镜像组织 在SWR服务页面创建镜像组织。
ECS获取基础镜像 Step1 创建ECS 下文中介绍如何在ECS中构建一个训练镜像,请参考ECS文档购买一个Linux弹性云服务器。完成网络配置、高级配置等步骤,可根据默认选择,或进行自定义。创建完成后,单击“远程登录”,后续安装Docker等操作均在该ECS上进行。 注意:C
RS) 功能介绍 该节点通过调用MRS服务,提供大数据集群计算能力。主要用于数据批量处理、模型训练等场景。 应用场景 需要使用MRS Spark组件进行大量数据的计算时,可以根据已有数据使用该节点进行训练计算。 使用案例 在华为云MRS服务下查看自己账号下可用的MRS集群,如果没
化的权限管控。 场景描述 MaaS服务的访问授权是通过ModelArts统一管理的,当用户已拥有ModelArts的访问授权时,无需单独配置MaaS服务的访问授权,当用户没有ModelArts的访问授权时,则需要先完成配置才能正常使用MaaS服务。 ModelArts在任务执行过
的代码。创建训练作业请参考创建训练作业指导。 解析输入路径参数、输出路径参数 运行在ModelArts的模型读取存储在OBS服务的数据,或者输出至OBS服务指定路径,输入和输出数据需要配置3个地方: 训练代码中需解析输入路径参数和输出路径参数。ModelArts推荐以下方式实现参数解析。
如何登录并上传镜像到SWR? 本章节介绍如何上传镜像到容器镜像服务SWR。 Step1 登录SWR 登录容器镜像服务控制台,选择区域。 单击右上角“创建组织”,输入组织名称完成组织创建。您可以自定义组织名称,本示例使用“deep-learning”,实际操作时请重新命名一个组织名
配置kubectl工具 kubectl是Kubernetes集群的命令行工具,配置kubectl后,您可通过kubectl命令操作Kubernetes集群。本文介绍如何配置kubectl工具,操作步骤如下。 登录ModelArts管理控制台,在左侧菜单栏中选择“AI专属资源池 >
ModelArts Standard的WebSocket在线服务全流程开发 背景说明 WebSocket是一种网络传输协议,可在单个TCP连接上进行全双工通信,位于OSI模型的应用层。WebSocket协议在2011年由IETF标准化为RFC 6455,后由RFC 7936补充规范。Web
使用ModelArts进行AI模型开发时,您需要将数据上传至对象存储服务(OBS)桶中。您可以登录OBS管理控制台创建OBS桶,并在您创建的OBS桶中创建文件夹,然后再进行数据的上传,OBS上传数据的详细操作请参见《对象存储服务快速入门》。 您在创建OBS桶时,需保证您的OBS桶与Mod
Standard推理部署在线服务 单个账号最多可创建20个在线服务。 是 提交工单申请提升配额 更多信息,请参见部署在线服务。 Standard推理部署批量服务 单个账号最多可创建1000个批量服务。 否 更多信息,请参见部署批量服务。 Standard推理部署边缘服务 单个账号最多可创建1000个边缘服务。