检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
7b,两者要完全一致。 --request-rate:请求频率,支持多个,如 0.1 1 2。实际测试时,会根据request-rate为均值的指数分布来发送请求以模拟真实业务场景。 --num-prompts:某个频率下请求数,支持多个,如 10 100 100,数量需和--request-rate的数量对应。
avg_decode_latency(平均增量token时延):服务计算增量token的平均耗时 time_in_queue(请求排队时间):请求从到达服务开始到开始被调度的耗时 request_latency(请求总时延):请求从到达服务开始到结束的耗时 以上指标单位均是ms,保留2位小数。 父主题: 推理性能测试
avg_decode_latency(平均增量token时延):服务计算增量token的平均耗时 time_in_queue(请求排队时间):请求从到达服务开始到开始被调度的耗时 request_latency(请求总时延):请求从到达服务开始到结束的耗时 以上指标单位均是ms,保留2位小数。 父主题: 推理性能测试
获取帐号名和帐号ID 在调用接口的时候,部分请求中需要填入帐号名(domain name)和帐号ID(domain_id)。获取步骤如下: 注册并登录管理控制台。 鼠标移动至用户名,在下拉列表中单击“我的凭证”。 在“API凭证”页面的查看“帐号名”和“帐号ID”。 图1 获取帐号名和ID
获取用户名和用户ID 在调用接口的时候,部分请求中需要填入用户名(user name)和用户ID(user_id)。获取步骤如下: 注册并登录管理控制台。 鼠标移动至用户名,在下拉列表中单击“我的凭证”。 在“API凭证”页面,查看“IAM用户名”和“IAM用户ID”。 图1 获取用户名和ID
Notebook实例ID,可通过调用查询Notebook实例列表接口获取。 project_id 是 String 用户项目ID,获取方法请参见获取项目ID和名称。 请求参数 表2 请求Body参数 参数 是否必选 参数类型 描述 category 否 String 存储类型。可选值为OBS。 mount_path
获取项目ID和名称 操作场景 在调用接口的时候,部分请求中需要填入项目ID或项目名称,所以需要获取到项目ID和名称。有如下两种获取方式: 从控制台获取项目ID和名称 调用API获取项目ID 从控制台获取项目ID和名称 从控制台获取项目ID(project_id)和名称(project
作为调用发起方的客户端无法访问已经获取到的推理请求地址 问题现象 完成在线服务部署且服务处于“运行中”状态后,已经通过调用指南页面的信息获取到调用的server端地址,但是调用发起方的客户端访问该地址不通,出现无法连接、域名无法解析的现象。 原因分析 在调用指南页签中显示的调用地
project_id 是 String 用户项目ID,获取方法请参见获取项目ID和名称。 storage_id 是 String OBS存储ID。 请求参数 无 响应参数 状态码: 200 表2 响应Body参数 参数 参数类型 描述 category String 存储类型。可选值为OBS。
返回该状态码,表明请求能够到达服务端,且服务端能够理解用户请求,但是拒绝做更多的事情,因为该请求被设置为拒绝访问,建议直接修改该请求,不要重试该请求。 404 NotFound 所请求的资源不存在。 建议直接修改该请求,不要重试该请求。 405 MethodNotAllowed 请求中带有该资源不支持的方法。 建议直接修改该请求,不要重试该请求。
用户项目ID。获取方法请参见获取项目ID和名称。 请求参数 表2 请求Body参数 参数 是否必选 参数类型 描述 user_id 否 String 用户ID,获取方法请参见获取用户ID和名称。 当user_id为all时,表示对所有IAM子用户进行授权,如果已有部分用户已授权,则更新授权。 仅当授权类型为委托时,需要该字段。
confirm your service is able to process the new request 原因分析 该报错是因为发送预测请求后,服务出现停止后又启动的情况。 处理方法 需要您检查服务使用的镜像,确定服务停止的原因,修复问题。重新创建模型部署服务。 父主题: 服务部署
达到所填次数后,服务会进入异常状态;在服务运行阶段,当健康检查请求连续失败达到所填次数后,服务会进入告警状态。 说明: 使用Custom引擎时需要符合自定义引擎规范,请参见使用自定义引擎创建模型。 当模型配置了健康检查,部署的服务在收到停止指令后,会延后3分钟才停止。 “动态加载”
String 工作空间ID。获取方法请参见查询工作空间列表。未创建工作空间时默认值为“0”,存在创建并使用的工作空间,以实际取值为准。 请求参数 表3 请求Header参数 参数 是否必选 参数类型 描述 X-Auth-Token 是 String 用户Token。通过调用IAM服务获
dataset_id 是 String 数据集ID。 project_id 是 String 用户项目ID。获取方法请参见获取项目ID和名称。 请求参数 表2 请求Body参数 参数 是否必选 参数类型 描述 clear_hard_property 否 Boolean 是否清空难例属性。可选值如下:
指定每一页返回的最大条目数,默认为1000。 取值范围[1,1000]。 offset 否 Integer 分页列表的起始页,默认为0。 请求参数 无 响应参数 状态码: 200 表3 响应Body参数 参数 参数类型 描述 total_count Number 授权信息总数。 auth
String 工作空间ID。获取方法请参见查询工作空间列表。未创建工作空间时默认值为“0”,存在创建并使用的工作空间,以实际取值为准。 请求参数 表3 请求Header参数 参数 是否必选 参数类型 描述 X-Auth-Token 是 String 用户Token。通过调用IAM服务获
用户项目ID。获取方法请参见获取项目ID和名称。 请求参数 表2 请求Header参数 参数 是否必选 参数类型 描述 X-Auth-Token 是 String 用户Token。通过调用IAM服务获取用户Token接口获取(响应消息头中X-Subject-Token的值)。 表3 请求Body参数 参数 是否必选
因APIG(API网关)限制,平台每次请求预测的时间不超过40秒。数据从平台发送到服务,服务预测推理,再将结果返回的时间不超过限制,可以成功返回预测结果。当服务预测的时间过长或者频繁预测导致服务接收不过来请求,即会出现该报错。 可以通过以下方式解决问题: 服务预测请求内容过大时,会因数据处理慢导致请求超时,优化预测代码,缩短预测时间。
String 工作空间ID。获取方法请参见查询工作空间列表。未创建工作空间时默认值为“0”,存在创建并使用的工作空间,以实际取值为准。 请求参数 表3 请求Header参数 参数 是否必选 参数类型 描述 X-Auth-Token 是 String 用户Token。通过调用IAM服务获