行者AI_客户案例_初创生态-华为云

背景介绍

业务挑战

解决方案

云容器引擎CCE承载API超千万日调用量

行者AI的谛听内容安全，API的日调用量突破了1000万，采用微服务框架，包含多个微服务，部署在数十个容器节点上，需要可靠稳定的容器集群才能保证系统稳定性。行者AI将服务部署在华为云CCE容器集群上，利用CCE调度近百个微服务节点，并利用WAF来防止API被滥用，同时利用流量监测进行服务的弹性伸缩，维持了系统的稳定性，自上线以来，0事故。

服务监测平台实时上报业务与日志数据

行者AI基于华为云ECS和LTS服务搭建了服务监测平台，客户在使用行者AI服务时，会实时上报使用日志，计算出监控业务指标，如发现算法效果下降，会立即安排算法同学进行排查，快速响应客户成功SOP，让用户更满意服务。

GPU调度，严格把控成本

行者AI有大量算法服务，AI生成图片、AI内容安全审核、AINPC、AI生成音乐等，都要使用GPU算力，分散管理带来GPU的利用率比较低。行者AI利用华为云CCE容器管理去集中管理各种GPU服务节点，再利用MongoDB和Redis构建了任务队列，把GPU资源整体利用率提高到了80%以上，降低了GPU的采购成本，也提高业务整体的毛利率。

客户价值

线上业务维持稳定，支撑1000以上并发能力

从2022年开始，行者AI陆续把游戏内容资产生成、AI音乐、AI内容安全等所有业务陆续迁移到华为云上，弹性支撑了业务增长，支撑了1000以上并发能力，完美支撑了客户的需要。

从2022年开始，行者AI陆续把游戏内容资产生成、AI音乐、AI内容安全等所有业务陆续迁移到华为云上，弹性支撑了业务增长，支撑了1000以上并发能力，完美支撑了客户的需要。
GPU资源平均利用率保持在80%以上

行者AI的训练和推理任务，需要的算力差异很大，比如：游戏2D美术的底模训练、风格固化Lora训练以及各种不同尺寸的图片生成，2K以内的图片只需要24G显存，而4K、8K图片则需要40G乃至80G显存。基于华为云的GPU调度平台，让任务与算力资源得到了正确的匹配，使GPU资源利用率平均保持在80%以上。

行者AI的训练和推理任务，需要的算力差异很大，比如：游戏2D美术的底模训练、风格固化Lora训练以及各种不同尺寸的图片生成，2K以内的图片只需要24G显存，而4K、8K图片则需要40G乃至80G显存。基于华为云的GPU调度平台，让任务与算力资源得到了正确的匹配，使GPU资源利用率平均保持在80%以上。
数据驱动让算法优化更高效，模型每天可更新10次以上

通过建立指标监测体系、日志分析平台和5分钟报警机制，使线上的算法效果变化尽收眼底，配合客户成功经理的打标和模型的自学习，可以快速输出效果变化的原因、新模型的效果，从而驱动算法工程师是否上线新模型，一天可更新模型10次以上。

通过建立指标监测体系、日志分析平台和5分钟报警机制，使线上的算法效果变化尽收眼底，配合客户成功经理的打标和模型的自学习，可以快速输出效果变化的原因、新模型的效果，从而驱动算法工程师是否上线新模型，一天可更新模型10次以上。

行者AI联合华为云打造游戏生产全链路解决方案

背景介绍

业务挑战

系统稳定性需求

业务效果预警

GPU调度

解决方案

客户价值

客户声音

7*24

备案

专业服务

退订

建议反馈

售前咨询热线