检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
规格与节点数中的1*节点 & 4*Ascend表示单机4卡,以此类推。
规格与节点数中的1*节点 & 4*Ascend表示单机4卡,以此类推。
规格与节点数中的1*节点 & 4*Ascend表示单机4卡,以此类推。
--num-speculative-tokens:投机推理小模型每次推理的token数。如果未使用投机推理功能,则无需配置。
这通常在数据集发生变化,或者需要重新生成缓存时使用 preprocessing_num_workers 16 用于指定预处理数据的工作线程数。随着线程数的增加,预处理的速度也会提高,但也会增加内存的使用。
右侧“配置信息”区域会显示计算规格的详细数据,AI Gallery会基于资产和资源情况分析该任务是否支持设置“商品数量”,用户可以基于业务需要选择任务所需的资源卡数。 在“运行时长控制”选择是否指定运行时长。
表2 Query参数 参数 是否必选 参数类型 描述 limit 否 Integer 指定每一页返回的最大条目数,取值范围[1,100],默认为10。 offset 否 Integer 分页列表的起始页,默认为0。 order 否 String 指定排序顺序。
比如指定运行模型的数据类型; vllm_path是模型权重路径; max_model_len 是最大模型长度,默认设置为4096; gpu_memory_utilization是gpu利用率,如果模型出现oom报错,调小参数; tensor_parallel_size是使用的卡数;
比如指定运行模型的数据类型; vllm_path是模型权重路径; max_model_len 是最大模型长度,默认设置为4096; gpu_memory_utilization是gpu利用率,如果模型出现oom报错,调小参数; tensor_parallel_size是使用的卡数;
该场景能模拟实际业务下动态的发送不同长度请求,能评估推理框架在实际业务中能支持的并发数。 性能benchmark验证使用到的脚本存放在代码包AscendCloud-LLM-xxx.zip的llm_tools/llm_evaluation目录下。
申请扩大配额主要是申请弹性云服务器ECS实例数、核心数(CPU核数)、RAM容量(内存大小)和云硬盘EVS磁盘容量这4个资源配额。具体的配额数量请先联系客户经理获取。
limit 否 Integer 指定每一页返回的最大条目数,取值范围[1,100000],默认为100000。 请求参数 无 响应参数 状态码: 200 表3 响应Body参数 参数 参数类型 描述 labels Array of Label objects 标签列表。
limit 否 Integer 指定每一页返回的最大条目数,默认为1000。 sort_by 否 String 指定排序字段,默认为occur_time(事件产生时间)。
restraint String 版本过滤条件,取值为: EXACT:等于给定版本 ATLEAST:不小于给定版本 ATMOST:不大于给定版本 表5 metric参数说明 参数 是否必选 参数类型 描述 f1 是 Double 平均数。
基于vLLM不同模型推理支持最小卡数和最大序列说明章节。
--num-speculative-tokens:投机推理小模型每次推理的token数。如果未使用投机推理功能,则无需配置。
limit 否 Integer 指定每一页返回的最大条目数,默认为'1000'。 sort_by 否 String 指定排序字段,可选'name'、'update_time'、'status',默认是'name'。 order 否 String 可选值。'asc'为递增排序。'
(建议不小于2U8G,本地存储空间100G,带EIP全动态BGP,按流量10M带宽) × 表2 开源数据集训练效率参考 算法及数据 资源规格 Epoch数 运行时长(hh:mm:ss) 算法:PyTorch官方针对ImageNet的样例 数据:ImageNet分类数据子集 1机1卡
count Integer 指定可用区扩容时,指定可用区的节点数。 表18 Taint 参数 参数类型 描述 key String 键。 value String 值。 effect String 作用效果。
--num-speculative-tokens:投机推理小模型每次推理的token数。若未使用投机推理功能,则无需配置。