检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
根据自己实际规划路径修改;如Qwen2-72B。 具体步骤如下: 进入到${workdir}目录下,如:/home/ma-user/ws,创建tokenizers文件目录将权重和词表文件放置此处,以Qwen2-72B为例。 cd /home/ma-user/ws mkdir -p
分页列表的起始页,默认为0。 请求参数 无 响应参数 状态码: 200 表3 响应Body参数 参数 参数类型 描述 create_time Long 任务创建时间。 error_code String 错误码。 error_msg String 错误信息。 export_format Integer
应服务的服务ID,描述指定的在线服务。用于服务更新的场景。 表8 SWRImage 属性 描述 是否必填 数据类型 swr_path 容器镜像的SWR路径 是 str 示例: example = SWRImage(swr_path = "**") # 容器镜像地址,用于模型注册节点的输入
推理服务性能评测 语言模型推理性能测试 多模态模型推理性能测试 父主题: 主流开源大模型基于Lite Server适配Ascend-vLLM PyTorch NPU推理指导(6.3.912)
通过公网访问通道的方式访问在线服务 背景描述 ModelArts推理默认使用公网访问在线服务。在线服务部署成功后,将为用户提供一个可调用的API,此API为标准Restful API。您可以在服务详情页面,调用指南页签中查看API接口公网地址。 图1 API接口公网地址 约束限制
请求超时返回Timeout 问题现象 服务预测请求超时 原因分析 请求超时,大概率是APIG(API网关)拦截问题。需排查APIG(API网关)和模型。 处理方法 优先排查APIG(API网关)是否是通的,可以在本地使用curl命令排查,命令行:curl -kv {预测地址}。如
能通过SSH登录,不同机器之间网络互通。 购买DevServer资源时如果无可选资源规格,需要联系华为云技术支持申请开通。 当容器需要提供服务给多个用户,或者多个用户共享使用该容器时,应限制容器访问Openstack的管理地址(169.254.169.254),以防止容器获取宿主
conf sysctl -p | grep net.ipv4.ip_forward 步骤二 获取训练镜像 建议使用官方提供的镜像部署训练服务。镜像地址{image_url}参见镜像地址获取。 docker pull {image_url} 步骤三 启动容器镜像 启动容器镜像前请
conf sysctl -p | grep net.ipv4.ip_forward Step2 获取训练镜像 建议使用官方提供的镜像部署训练服务。镜像地址{image_url}参见镜像地址获取。 docker pull {image_url} Step3 启动容器镜像 启动容器镜像
录。 Step6 服务调用 提前准备人物图片,支持'jpg', 'png', 'jpeg'格式。推荐测试图片大小1280*720或1920*1080。 提前准备音频文件audio,支持'wav', 'mp3', 'mp4'格式。 在代码根目录Wav2lip下创建test_wav2lip
太小,无法满足应用部署,请增大内存规格。 运行中服务告警中出现该提示,可能代码有问题导致内存溢出或者业务使用量太大导致内存需求增多。 处理方法 在部署或升级在线服务时,选择更大内存规格的计算节点。 图3 选择计算节点规格 运行中服务出现告警时,需要分析是您的代码是否出现漏洞导致内
参数类型 描述 vpcep_service_id String VPC访问通道vpcep终端节点服务ID。 vpcep_service_name String VPC访问通道vpcep终端节点服务名称。 service_port Integer VPC访问通道的端口。 状态码:401 表6
MaaS大模型即服务平台功能介绍 对于普通企业来说,大模型开发不仅需要强大的算力,还需要学习训练、部署的相关参数配置和规格选择等专业知识。ModelArts Studio大模型即服务平台(后续简称为MaaS服务)作为一个面向客户的大模型服务化平台,提供简单易用的模型开发工具链,支
查看批量服务的事件 服务的(从用户可看见部署服务任务开始)整个生命周期中,每一个关键事件点在系统后台均有记录,用户可随时在对应服务的详情页面进行查看。 方便用户更清楚的了解服务部署和运行过程,遇到任务异常时,更加准确的排查定位问题。可查看的事件点包括: 表1 事件 事件类型 事件
查看ModelArts相关审计日志 在您开启了云审计服务后,系统会记录ModelArts的相关操作,且控制台保存最近7天的操作记录。本节介绍如何在云审计服务管理控制台查看最近7天的操作记录。 操作步骤 登录云审计服务管理控制台。 在管理控制台左上角单击图标,选择区域。 在左侧导航
导入模型后部署服务,提示磁盘不足 问题现象 用户在导入模型后,部署服务时,提示磁盘空间不足:“No space left on device”。 原因分析 ModelArts部署使用的是容器化部署,容器运行时有空间大小限制,当用户的模型文件或者其他自定义文件,系统文件超过Docker
ModelArts在线服务预测时,如何提高预测速度? 部署在线服务时,您可以选择性能更好的“实例规格”提高预测速度。例如使用GPU资源代替CPU资源。 部署在线服务时,您可以增加“实例数”。 如果实例数设置为1,表示后台的计算模式是单机模式;如果实例数设置大于1,表示后台的计算模
ModelArts在线服务预测请求体大小限制是多少? 服务部署完成且服务处于运行中后,可以往该服务发送推理的请求,请求的内容根据模型的不同可以是文本,图片,语音,视频等内容。 当使用调用指南页签中显示的调用地址(华为云APIG网关服务的地址)预测时,对请求体的大小限制是12MB,超过12MB时,请求会被拦截。
如何减小本地或ECS构建镜像的目的镜像的大小? 减小目的镜像大小的最直接的办法就是选择尽可能小且符合自己诉求的镜像,比如您需要制作一个PyTorch2.1+Cuda12.2的镜像,官方如果没有提供对应的PyTorch或者Cuda版本的镜像,优选一个没有PyTorch环境或没有安装
确认API调用中body体中的调用路径是否拼接自定义路径。如:“{API接口地址}/predictions/poetry”。 父主题: 服务预测