特惠算力专区-大数据分析:人工智能应用

时间:2023-11-01 16:13:34

人工智能应用

  • 场景概述

    2016年AlphaGo横空出世,4:1战胜李世石,17年又以3:0战胜世界围棋冠军柯洁,此后三年,星际,Dota2,德州扑克等均涌现出超高水平AI。人工智能应用在其中起到了不可替代的作用。

    游戏智能体通常采用深度强化学习方法,从0开始,通过与环境的交互和试错,学会观察世界、执行动作、合作与竞争策略。每个AI智能体是一个深度神经网络模型,主要包含如下步骤:

    1. 通过GPU分析场景特征(自己,视野内队友,敌人,小地图等)输入状态信息(Learner)。
    2. 根据策略模型输出预测的动作指令(Policy)。
    3. 通过CPU单线程模拟玩家,每个玩家(Actor)执行不同的策略。
    4. 不同策略对应不同结果,不同结果产生不同的Reward(奖励分数)。
    5. 该奖励分数作为参数用来更新策略模型,再进行新一轮学习。
  • 客户瓶颈
    1. 实时性与长期性:AI不仅要做出实时的操作决策,还要做出长期的规划决策,通常对于游戏时间30分钟左右的STG游戏,对应的决策步数(Policy)超过7000步,这意味着Actor执行Policy的时间成本较高。
    2. 复杂的动作空间:玩家需要同时操作移动方向、视角方向、攻击、姿态(站、蹲、趴、跳、跑)、交互(救人、拾取、换弹)等操作,产生复杂的组合动作空间,可行动作数量在10^7量级。对于CPU计算能力要求较高。
    3. 训练任务快速部署:客户进行AI强化学习时,需要短时间(10mins)拉起上万核CPU,对动态扩容能力要求较高。
  • 竞享实例的应用

    该AI学习引擎采用竞享实例提供CPU资源。得益于竞享实例的快速扩容与成本优势,引擎可以短时间生成超大规模AI(Actor)同时执行更多的策略,缩短模拟时间。而凭借竞享实例的强劲性能(全系C类型)该引擎训练一天相当于人类玩家打10万年。

图1 人工智能应用架构图

Learner:学习集群,一般是多个GPU显卡组成训练集群

Actor:采用竞享实例提供CPU,每个线程作为一个AI玩家,用于测试策略的执行效果

Policy:Learner的输出结果,游戏AI的策略

Reward:Actor的执行结果的反馈,提供给Learner

support.huaweicloud.com/productdesc-ceci/ceci_01_0004.html