华为云首页用户手册

特惠算力专区-大数据分析:人工智能应用

特惠算力专区-大数据分析:人工智能应用

时间：2025-02-12 14:55:10

特惠算力专区竞享实例的应用场景

人工智能应用

场景概述
 2016年AlphaGo横空出世，4:1战胜李世石，17年又以3:0战胜世界围棋冠军柯洁，此后三年，星际，Dota2，德州扑克等均涌现出超高水平AI。人工智能应用在其中起到了不可替代的作用。

游戏智能体通常采用深度强化学习方法，从0开始，通过与环境的交互和试错，学会观察世界、执行动作、合作与竞争策略。每个AI智能体是一个深度神经网络模型，主要包含如下步骤：
1. 通过GPU分析场景特征（自己，视野内队友，敌人，小地图等）输入状态信息（Learner）。
2. 根据策略模型输出预测的动作指令（Policy）。
3. 通过CPU单线程模拟玩家，每个玩家（Actor）执行不同的策略。
4. 不同策略对应不同结果，不同结果产生不同的Reward（奖励分数）。
5. 该奖励分数作为参数用来更新策略模型，再进行新一轮学习。
客户瓶颈
1. 实时性与长期性：AI不仅要做出实时的操作决策，还要做出长期的规划决策，通常对于游戏时间30分钟左右的STG游戏，对应的决策步数（Policy）超过7000步，这意味着Actor执行Policy的时间成本较高。
2. 复杂的动作空间：玩家需要同时操作移动方向、视角方向、攻击、姿态（站、蹲、趴、跳、跑）、交互（救人、拾取、换弹）等操作，产生复杂的组合动作空间，可行动作数量在10^7量级。对于CPU计算能力要求较高。
3. 训练任务快速部署：客户进行AI强化学习时，需要短时间（10mins）拉起上万核CPU，对动态扩容能力要求较高。
竞享实例的应用
 该AI学习引擎采用竞享实例提供CPU资源。得益于竞享实例的快速扩容与成本优势，引擎可以短时间生成超大规模AI（Actor）同时执行更多的策略，缩短模拟时间。而凭借竞享实例的强劲性能（全系C类型）该引擎训练一天相当于人类玩家打10万年。

图1 人工智能应用架构图

Learner：学习集群，一般是多个GPU显卡组成训练集群

Actor：采用竞享实例提供CPU，每个线程作为一个AI玩家，用于测试策略的执行效果

Policy：Learner的输出结果，游戏AI的策略

Reward：Actor的执行结果的反馈，提供给Learner

上一篇：特惠算力专区-Web应用:舆情获取业务

下一篇：特惠算力专区-Web应用:舆情获取业务

开年采购季抽奖赢万元免单

立即前往

续费同价 L实例 2核2G 4M

98元/年

企业专享 X实例 2核4G 5M

198元/年

热门域名 1元随心购

1元/年起

特惠算力专区-大数据分析:人工智能应用

意见反馈

0/200

提交成功！非常感谢您的反馈，我们会继续努力做到更好反馈提交失败！请稍后重试！

推荐文章

解决方案
相关专题