检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
通过PTA_TORCHAIR_DECODE_GEAR_LIST设置动态分档位后,在PTA模式下,会根据服务启动时的max_num_seqs参数对档位进行调整,使得最终的最大档位为max_num_seqs,因此,请根据使用场景合理设置动态分档以及max_num_seqs参数,避免档位过大导致图编译错误。
推理性能测试 本章节介绍如何进行推理性能测试,建议在Notebook的JupyterLab中另起一个Terminal,执行benchmark脚本进行性能测试。如果需要在生产环境中进行推理性能测试,请通过调用接口的方式进行测试。 约束限制 创建在线服务时,每秒服务流量限制默认为10
推理性能测试 本章节介绍如何进行推理性能测试,建议在Notebook的JupyterLab中另起一个Terminal,执行benchmark脚本进行性能测试。如果需要在生产环境中进行推理性能测试,请通过调用接口的方式进行测试。 约束限制 创建在线服务时,每秒服务流量限制默认为10
通过PTA_TORCHAIR_DECODE_GEAR_LIST设置动态分档位后,在PTA模式下,会根据服务启动时的max_num_seqs参数对档位进行调整,使得最终的最大档位为max_num_seqs,因此,请根据使用场景合理设置动态分档以及max_num_seqs参数,避免档位过大导致图编译错误。
通过PTA_TORCHAIR_DECODE_GEAR_LIST设置动态分档位后,在PTA模式下,会根据服务启动时的max_num_seqs参数对档位进行调整,使得最终的最大档位为max_num_seqs,因此,请根据使用场景合理设置动态分档以及max_num_seqs参数,避免档位过大导致图编译错误。