背景介绍
业务挑战
解决方案
云容器引擎CCE承载API超千万日调用量
行者AI的谛听内容安全,API的日调用量突破了1000万,采用微服务框架,包含多个微服务,部署在数十个容器节点上,需要可靠稳定的容器集群才能保证系统稳定性。行者AI将服务部署在华为云CCE容器集群上,利用CCE调度近百个微服务节点,并利用WAF来防止API被滥用,同时利用流量监测进行服务的弹性伸缩,维持了系统的稳定性,自上线以来,0事故。
服务监测平台实时上报业务与日志数据
行者AI基于华为云ECS和LTS服务搭建了服务监测平台,客户在使用行者AI服务时,会实时上报使用日志,计算出监控业务指标,如发现算法效果下降,会立即安排算法同学进行排查,快速响应客户成功SOP,让用户更满意服务。
GPU调度,严格把控成本
行者AI有大量算法服务,AI生成图片、AI内容安全审核、AINPC、AI生成音乐等,都要使用GPU算力,分散管理带来GPU的利用率比较低。行者AI利用华为云CCE容器管理去集中管理各种GPU服务节点,再利用MongoDB和Redis构建了任务队列,把GPU资源整体利用率提高到了80%以上,降低了GPU的采购成本,也提高业务整体的毛利率。
客户价值
-
从2022年开始,行者AI陆续把游戏内容资产生成、AI音乐、AI内容安全等所有业务陆续迁移到华为云上,弹性支撑了业务增长,支撑了1000以上并发能力,完美支撑了客户的需要。
从2022年开始,行者AI陆续把游戏内容资产生成、AI音乐、AI内容安全等所有业务陆续迁移到华为云上,弹性支撑了业务增长,支撑了1000以上并发能力,完美支撑了客户的需要。
-
行者AI的训练和推理任务,需要的算力差异很大,比如:游戏2D美术的底模训练、风格固化Lora训练以及各种不同尺寸的图片生成,2K以内的图片只需要24G显存,而4K、8K图片则需要40G乃至80G显存。基于华为云的GPU调度平台,让任务与算力资源得到了正确的匹配,使GPU资源利用率平均保持在80%以上。
行者AI的训练和推理任务,需要的算力差异很大,比如:游戏2D美术的底模训练、风格固化Lora训练以及各种不同尺寸的图片生成,2K以内的图片只需要24G显存,而4K、8K图片则需要40G乃至80G显存。基于华为云的GPU调度平台,让任务与算力资源得到了正确的匹配,使GPU资源利用率平均保持在80%以上。
-
通过建立指标监测体系、日志分析平台和5分钟报警机制,使线上的算法效果变化尽收眼底,配合客户成功经理的打标和模型的自学习,可以快速输出效果变化的原因、新模型的效果,从而驱动算法工程师是否上线新模型,一天可更新模型10次以上。
通过建立指标监测体系、日志分析平台和5分钟报警机制,使线上的算法效果变化尽收眼底,配合客户成功经理的打标和模型的自学习,可以快速输出效果变化的原因、新模型的效果,从而驱动算法工程师是否上线新模型,一天可更新模型10次以上。