大数据是干什么的
人工智能应用
场景概述
2016年AlphaGo横空出世,4:1战胜李世石,17年又以3:0战胜世界围棋冠军柯洁,此后三年,星际,Dota2,德州扑克等均涌现出超高水平AI。人工智能应用在其中起到了不可替代的作用。
游戏智能体通常采用深度强化学习方法,从0开始,通过与环境的交互和试错,学会观察世界、执行动作、合作与竞争策略。每个AI智能体是一个深度神经网络模型,主要包含如下步骤:
1、通过GPU分析场景特征(自己,视野内队友,敌人,小地图等)输入状态信息(Learner)。
2、根据策略模型输出预测的动作指令(Policy)。
3、通过CPU单线程模拟玩家,每个玩家(Actor)执行不同的策略。
4、不同策略对应不同结果,不同结果产生不同的Reward(奖励分数)。
5、该奖励分数作为参数用来更新策略模型,再进行新一轮学习。
客户瓶颈
1、实时性与长期性:AI不仅要做出实时的操作决策,还要做出长期的规划决策,通常对于游戏时间30分钟左右的STG游戏,对应的决策步数(Policy)超过7000步,这意味着Actor执行Policy的时间成本较高。
2、复杂的动作空间:玩家需要同时操作移动方向、视角方向、攻击、姿态(站、蹲、趴、跳、跑)、交互(救人、拾取、换弹)等操作,产生复杂的组合动作空间,可行动作数量在10^7量级。对于CPU计算能力要求较高。
3、训练任务快速部署:客户进行AI强化学习时,需要短时间(10mins)拉起上万核CPU,对动态扩容能力要求较高。
竞享实例的应用
该AI学习引擎采用竞享实例提供CPU资源。得益于竞享实例的快速扩容与成本优势,引擎可以短时间生成超大规模AI(Actor)同时执行更多的策略,缩短模拟时间。而凭借竞享实例的强劲性能(全系C类型)该引擎训练一天相当于人类玩家打10万年。
图1 人工智能应用架构图
Learner:学习集群,一般是多个GPU显卡组成训练集群
Actor:采用竞享实例提供CPU,每个线程作为一个AI玩家,用于测试策略的执行效果
Policy:Learner的输出结果,游戏AI的策略
Reward:Actor的执行结果的反馈,提供给Learner
大数据分析学习课程与认证
课程结合实践,借助配套的实验环境,一站式学练考,轻松Get新知识
大数据分析与应用知识图谱
包含大数据入门、大数据分析、大数据平台应用、大数据分析工具讲解等相关课程及培训内容
-
初学者入门课程
初学者入门课程
-
HCIP-Big Data Developer
HCIP-Big Data Developer
-
包括初级和中级认证
包括初级和中级认证