特惠算力专区-大数据分析:人工智能应用
人工智能应用
- 场景概述
2016年AlphaGo横空出世,4:1战胜李世石,17年又以3:0战胜世界围棋冠军柯洁,此后三年,星际,Dota2,德州扑克等均涌现出超高水平AI。人工智能应用在其中起到了不可替代的作用。
游戏智能体通常采用深度强化学习方法,从0开始,通过与环境的交互和试错,学会观察世界、执行动作、合作与竞争策略。每个AI智能体是一个深度神经网络模型,主要包含如下步骤:
- 通过GPU分析场景特征(自己,视野内队友,敌人,小地图等)输入状态信息(Learner)。
- 根据策略模型输出预测的动作指令(Policy)。
- 通过CPU单线程模拟玩家,每个玩家(Actor)执行不同的策略。
- 不同策略对应不同结果,不同结果产生不同的Reward(奖励分数)。
- 该奖励分数作为参数用来更新策略模型,再进行新一轮学习。
- 客户瓶颈
- 实时性与长期性:AI不仅要做出实时的操作决策,还要做出长期的规划决策,通常对于游戏时间30分钟左右的STG游戏,对应的决策步数(Policy)超过7000步,这意味着Actor执行Policy的时间成本较高。
- 复杂的动作空间:玩家需要同时操作移动方向、视角方向、攻击、姿态(站、蹲、趴、跳、跑)、交互(救人、拾取、换弹)等操作,产生复杂的组合动作空间,可行动作数量在10^7量级。对于CPU计算能力要求较高。
- 训练任务快速部署:客户进行AI强化学习时,需要短时间(10mins)拉起上万核CPU,对动态扩容能力要求较高。
- 竞享实例的应用
该AI学习引擎采用竞享实例提供CPU资源。得益于竞享实例的快速扩容与成本优势,引擎可以短时间生成超大规模AI(Actor)同时执行更多的策略,缩短模拟时间。而凭借竞享实例的强劲性能(全系C类型)该引擎训练一天相当于人类玩家打10万年。
![](https://support.huaweicloud.com/productdesc-ceci/zh-cn_image_0252749561.png)
Learner:学习集群,一般是多个GPU显卡组成训练集群
Actor:采用竞享实例提供CPU,每个线程作为一个AI玩家,用于测试策略的执行效果
Policy:Learner的输出结果,游戏AI的策略
Reward:Actor的执行结果的反馈,提供给Learner