温馨提示
恭喜您,订阅成功!
温馨提示
抱歉,订阅失败,请稍后再试!
温馨提示
您还未绑定邮箱,需要绑定邮箱才能订阅哦!订阅成功后,订阅信息会发送到您绑定的邮箱。
温馨提示
请您在新打开的页面绑定邮箱!
注意:绑定邮箱完成前,请不要关闭此窗口!

背景介绍

成都潜在人工智能科技有限公司(行者 AI)是一家成立3年的初创企业,2023年加入华为云初创计划,也是华为云加速器的第一期学员企业。通过华为云的技术赋能和全球生态资源网络,加速开拓海外市场。


行者AI是国内领先的智慧文娱AI一站式人工智能解决方案提供商,秉承以AI技术赋能智慧文娱行业的愿景,自主研发了AI+美术,AI+音乐,AI+智能体,AI+安全等产品与解决方案。公司研发人员占比超70%,团队拥有10年以上技术研发经验及AI行业、游戏行业从业积累。


截至目前,公司已拥有国家高新技术企业、50余项的专利和软著、10余篇SCI与EI论文等知识产权。曾主导并参与过工信部、华为中央研究院等横纵向项目。

业务挑战

系统稳定性需求

公司有很多客户使用API调用,API的使用跟客户的APP深度绑定,SLA必须达到4个9,并且需要保证上线期间也不影响API调用;产研团队每个月都面临2-3次机房故障或者服务器性能bug,故障期间会造成整个研发团队停摆,消耗极大的人力和时间成本。

业务效果预警

行者AI的服务基于AI,服务的效果并不会一成不变,而是随着服务的使用发生或好或差的变化,如何快速跟进算法效果变化,并进行优化,提高客户的满意度,是一个非常核心的问题。

GPU调度

随着客户的增长,服务消耗的GPU资源越来越多,GPU型号也越来越多,针对不同服务,如何有效地调用GPU资源,会严重影响公司的营收与利润,从而影响公司的可持续发展。


解决方案

云容器引擎CCE承载API超千万日调用量

行者AI的谛听内容安全,API的日调用量突破了1000万,采用微服务框架,包含多个微服务,部署在数十个容器节点上,需要可靠稳定的容器集群才能保证系统稳定性。行者AI将服务部署在华为云CCE容器集群上,利用CCE调度近百个微服务节点,并利用WAF来防止API被滥用,同时利用流量监测进行服务的弹性伸缩,维持了系统的稳定性,自上线以来,0事故。

服务监测平台实时上报业务与日志数据

行者AI基于华为云ECS和LTS服务搭建了服务监测平台,客户在使用行者AI服务时,会实时上报使用日志,计算出监控业务指标,如发现算法效果下降,会立即安排算法同学进行排查,快速响应客户成功SOP,让用户更满意服务。

GPU调度,严格把控成本

行者AI有大量算法服务,AI生成图片、AI内容安全审核、AINPC、AI生成音乐等,都要使用GPU算力,分散管理带来GPU的利用率比较低。行者AI利用华为云CCE容器管理去集中管理各种GPU服务节点,再利用MongoDB和Redis构建了任务队列,把GPU资源整体利用率提高到了80%以上,降低了GPU的采购成本,也提高业务整体的毛利率。

客户价值

  • 线上业务维持稳定,支撑1000以上并发能力

    从2022年开始,行者AI陆续把游戏内容资产生成、AI音乐、AI内容安全等所有业务陆续迁移到华为云上,弹性支撑了业务增长,支撑了1000以上并发能力,完美支撑了客户的需要。

    从2022年开始,行者AI陆续把游戏内容资产生成、AI音乐、AI内容安全等所有业务陆续迁移到华为云上,弹性支撑了业务增长,支撑了1000以上并发能力,完美支撑了客户的需要。

  • GPU资源平均利用率保持在80%以上

    行者AI的训练和推理任务,需要的算力差异很大,比如:游戏2D美术的底模训练、风格固化Lora训练以及各种不同尺寸的图片生成,2K以内的图片只需要24G显存,而4K、8K图片则需要40G乃至80G显存。基于华为云的GPU调度平台,让任务与算力资源得到了正确的匹配,使GPU资源利用率平均保持在80%以上。

    行者AI的训练和推理任务,需要的算力差异很大,比如:游戏2D美术的底模训练、风格固化Lora训练以及各种不同尺寸的图片生成,2K以内的图片只需要24G显存,而4K、8K图片则需要40G乃至80G显存。基于华为云的GPU调度平台,让任务与算力资源得到了正确的匹配,使GPU资源利用率平均保持在80%以上。

  • 数据驱动让算法优化更高效,模型每天可更新10次以上

    通过建立指标监测体系、日志分析平台和5分钟报警机制,使线上的算法效果变化尽收眼底,配合客户成功经理的打标和模型的自学习,可以快速输出效果变化的原因、新模型的效果,从而驱动算法工程师是否上线新模型,一天可更新模型10次以上。

    通过建立指标监测体系、日志分析平台和5分钟报警机制,使线上的算法效果变化尽收眼底,配合客户成功经理的打标和模型的自学习,可以快速输出效果变化的原因、新模型的效果,从而驱动算法工程师是否上线新模型,一天可更新模型10次以上。

客户声音

华为云产品的稳定性和技术人员的贴身服务,让我们能放心的把行者AI的产品和部署在华为云上,同时,通过与华为云销售团队的紧密配合,我们的业务飞速发展,在给游戏厂商赋能领域达到了业界TOP5,更是占领了游戏内容安全领域第一的位置。


行者AI技术副总裁 陈超