检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
max-model-len。 表1 基于vLLM不同模型推理支持最小卡数和最大序列说明 序号 模型名 32GB显存 64GB显存 最小卡数 最大序列(K) max-model-len 最小卡数 最大序列(K) max-model-len 1 llama-7b 1 16 1 32 2
max-model-len。 表1 基于vLLM不同模型推理支持最小卡数和最大序列说明 序号 模型名 32GB显存 64GB显存 最小卡数 最大序列(K) max-model-len 最小卡数 最大序列(K) max-model-len 1 llama-7b 1 16 1 32 2
查看批量服务详情 查看批量服务的事件 管理批量服务生命周期 修改批量服务配置 父主题: 使用ModelArts Standard部署模型并推理预测
String 开始时间 end_time String 结束时间 result_ext String 参数等额外信息,最大长度512 job_partner String 参与方信息,最大长度128 is_single_predict Boolean 单方还是双方预测 metrics
DROP SEQUENCE 功能描述 从当前数据库里删除序列。 注意事项 序列的所有者、序列所在模式或者被授予了序列DROP权限的用户才能删除,系统管理员默认拥有该权限。 语法格式 DROP SEQUENCE [ IF EXISTS ] { [schema.] sequence_name
max-model-len。 表1 基于vLLM不同模型推理支持最小卡数和最大序列说明 序号 模型名 32GB显存 64GB显存 最小卡数 最大序列(K) max-model-len 最小卡数 最大序列(K) max-model-len 1 llama-7b 1 16 1 32 2
001 (1 row) uuid_generate_v1函数根据时间信息、集群节点编号和生成该序列的线程号生成UUID,该UUID在单个集群内是全局唯一的,但在多个集群间的时间信息、集群节点编号、线程号和时钟序列仍然存在同时相等的可能性,因此多个集群间生成的UUID仍然存在极低概率的重复风险。
001 (1 row) uuid_generate_v1函数根据时间信息、集群节点编号和生成该序列的线程号生成UUID,该UUID在单个集群内是全局唯一的,但在多个集群间的时间信息、集群节点编号、线程号和时钟序列仍然存在同时相等的可能性,因此多个集群间生成的UUID仍然存在极低概率的重复风险。
max-model-len。 表1 基于vLLM不同模型推理支持最小卡数和最大序列说明 序号 模型名 32GB显存 64GB显存 最小卡数 最大序列(K) max-model-len 最小卡数 最大序列(K) max-model-len 1 llama-7b 1 16 1 32 2
靶点化合物结合预测(CPI) 新建CPI任务接口 查询CPI任务 父主题: API(AI辅助药物设计)
模型配置文件编写说明 模型推理代码编写说明 自定义引擎创建模型规范 自定义脚本代码示例 父主题: 使用ModelArts Standard部署模型并推理预测
参数说明 IF EXISTS 如果指定的序列不存在,则发出一个notice而不是抛出一个错误。 name 序列名称。 CASCADE 级联删除依赖序列的对象。 RESTRICT 如果存在任何依赖的对象,则拒绝删除序列。此项是缺省值。 示例 删除序列serial: 1 DROP SEQUENCE
参数说明 IF EXISTS 如果指定的序列不存在,则发出一个notice而不是抛出一个错误。 name 序列名称。 CASCADE 级联删除依赖序列的对象。 RESTRICT 如果存在任何依赖的对象,则拒绝删除序列。此项是缺省值。 示例 删除序列serial: 1 DROP SEQUENCE
在线服务参数说明请参见部署模型为在线服务。修改在线服务还需要配置“最大无效实例数”设置并行升级的最大节点数,升级阶段节点无效。 修改在线服务参数时,可通过增加一个自定义的环境变量参数,服务即可自动迁移到新的资源池。 方式二:通过服务详情页面修改服务信息 登录ModelArts管理控制台,在左侧菜单栏中选择“模型部署”,进入目标服务类型管理页面。
即可保存修改。 图4 开启APP认证 AppCode认证预测。 在部署服务详情中单击“调用指南”,第二行的API接口公网地址即为APP认证调用地址,展开后即可看到AppCode值。 图5 调用指南 在postman调试预测采用AppCode认证: 请求POST URL填APP认证调用地址
模型包结构介绍 创建模型时,如果是从OBS中导入元模型,则需要符合一定的模型包规范。 模型包规范适用于单模型场景,如果是多模型场景(例如含有多个模型文件)推荐使用自定义镜像方式。 ModelArts推理平台不支持的AI引擎,推荐使用自定义镜像方式。 请参考创建模型的自定义镜像规范
自己的VPC节点中访问在线服务。 约束限制 调用API访问在线服务时,对预测请求体大小和预测时间有限制: 请求体的大小不超过12MB,超过后请求会被拦截。 因APIG(API网关)限制,平台每次请求预测的时间不超过40秒。 操作步骤 VPC访问通道访问在线服务操作步骤如下: 获取ModelArts终端节点服务地址
)。例如: 图片、较小视频文件。 异步请求:单次推理,需要异步处理返回结果(约>60s)。例如: 实时视频推理、大视频文件。 创建时间 模型的创建时间。 描述 模型的描述。 操作 部署:将模型发布为在线服务、批量服务或边缘服务。 创建新版本:创建新的模型版本。参数配置除版本外,将
区分效果。 环境变量定义在API分组上,该分组下的所有API都可以使用这些变量。 1.环境变量的变量名称必须保持唯一,即一个分组在同一个环境上不能有两个同名的变量 2.环境变量区分大小写,即变量ABC与变量abc是两个不同的变量 3.设置了环境变量后,使用到该变量的API的调试功能将不可使用。
模型输入和输出与目标检测模型配置文件示例类似。 模型预测输入为图片类型时,request请求示例如下: 该示例表示模型预测接收一个参数名为images、参数类型为file的预测请求,在推理界面会显示文件上传按钮,以文件形式进行预测。 1 2 3 4 5 6 7 8