内容选择
全部
内容选择
内容分类
  • 学堂
  • 博客
  • 论坛
  • 开发服务
  • 开发工具
  • 直播
  • 视频
  • 用户
时间
  • 一周
  • 一个月
  • 三个月
  • 强化学习应用

    强化学习应用为了更好地理解强化学习的组成部分,让我们考虑几个例子。Chess:这里的环境是棋盘,环境的状态是棋子在棋盘上的位置;RL 代理可以是参与者之一(或者,两个参与者都可以是 RL 代理,在同一环境中分别训练);一盘棋局则是一集。这一集从初始状态开始,黑板和白板的边缘排列着

    作者: QGS
    1283
    10
  • 强化学习的落地实践

    强化学习被认为是实现通用人工智能的重要技术途径,本议题将围绕强化学习的发展历史,介绍强化学习背景,强化学习的最新研究进展,以及强化学习在业界的落地实践,并介绍该领域面临的挑战性问题和未来发展方向。

    主讲人:诺亚方舟实验室决策推理实验室主任 郝建业
    直播时间:2020/03/13 周五 16:20 - 17:20
  • 强化学习的特性

    强化学习是智能体(Agent)以“试错”的方式进行学习,通过与环境进行交互获得的奖赏指导行为,目标是使智能体获得最大的奖赏,强化学习不同于连接主义学习中的监督学习,主要表现在强化信号上,强化学习中由环境提供的强化信号是对产生动作的好坏作一种评价(通常为标量信号),而不是告诉强化学

    作者: 运气男孩
    552
    2
  • 什么是强化学习

    敌驻我扰,敌疲我打,敌退我追”,也是指导战争中的序列决策的; 当你总结完这些强化学习的概念后,觉得打仗这门学问就应该用强化学习来解决,倍感兴奋,但这只是强化学习相关的一些概念,怎么去做强化学习呢?这就引出下面两个重要的概念:Q值和V值 V值是智能体在某个状态下,一直到

    作者: yanghuaili
    发表时间: 2021-07-25 08:25:07
    2255
    0
  • 书太受欢迎,北大《深度强化学习》作者:那就开放下载吧

    OpenAI Five 成功的案例,深度强化学习受到大量的关注,相关技术广泛应用于不同的领域。但是,对于一名学习者来说,市面上很少有书籍或者教程能同时覆盖从「0 到 1」和「从 1 到 N」的深度强化学习内容,学习材料非常零散。为了克服这一难题,北京大学前沿计算研究中心助理教授董豪博士等编写了一本名为《Deep

    作者: QGS
    1398
    5
  • 分享谷歌又出量子计算新成果,这次用上了深度强化学习

    同步策略的深度强化学习(RL)方法,即置信域强化学习(Trusted-Region RL),因为该方法在所有基准问题中均表现出良好的性能,对样本噪声具有固有的鲁棒性,并且能够优化有着数亿个控制参数的数百种高难度的控制问题。这种同步策略强化学习与先前研究的异步策略强化学习方法之间的

    作者: 初学者7000
    466
    0
  • 【MindSpore易点通】强化学习系列之浅析强化学习基础

    多时候,我们可以取T=∞。强化学习的核心任务是,学习一个从状态空间S到动作空间A的映射,最大化累积受益。常用的强化学习算法有Q-Learning、策略梯度,以及演员评判家算法(Actor-Critic)等。4. 强化学习中的价值迭代上一章节已经把强化学习问题形式化为马尔可夫决策过

    作者: chengxiaoli
    1273
    0
  • 【转载】强化学习

    作者: andyleung
    715
    1
  • 什么叫做强化学习

    如题目描述的这样

    作者: qinggedada
    1546
    5
  • 遗传算法与深度强化学习的主要差别是什么讨论下呢

    遗传算法是随机束搜索的变形,与进化理论关联较强,其思想是个体种群内按一定概率交叉与变异产生下一代,去发现每一代及最终状态会如何变化,所以是关于群体进化的算法,对每个个体都有适应度函数进行评价,越好评价值就越高

    作者: AI爱好者
    1987
    5
  • 强化学习(十九) AlphaGo Zero强化学习原理

      在强化学习(十八) 基于模拟的搜索与蒙特卡罗树搜索(MCTS)中,我们讨论了MCTS的原理和在棋类中的基本应用。这里我们在前一节MCTS的基础上,讨论下DeepMind的AlphaGo Zero强化学习原理。     本篇主要参考了AlphaGo

    作者: 格图洛书
    发表时间: 2021-12-29 15:30:47
    517
    0
  • 会出强化学习框架么?

    【功能模块】华为会出基于MindSpore的强化学习框架么?

    作者: Big Liu
    1454
    4
  • 强化学习相关问题

    强化学习使用帮助 https://bbs.huaweicloud.com/blogs/197300  https://bbs.huaweicloud.com/blogs/197302 强化学习预置算法 https://support.huaweicloud

    作者: 星月菩提
    发表时间: 2021-01-15 03:27:32
    1685
    0
  • 强化学习 gameai

    求问大家有用过AI Gallery上的强化学习gameai吗,感觉用的人不是很多啊  我试用了下 训练一次有点小贵 而且短时间训练不出啥结果 主要是我自己也刚开始接触 不是很懂这一块 不知道大家都是如何学习的?

    作者: i淇淇子
    5493
    7
  • 强化学习中的深度卷积神经网络设计与应用实例

    据方面提供了强大工具。本文将探讨强化学习深度卷积神经网络的设计原则及其在不同应用场景中的实例。 II. 深度卷积神经网络在强化学习中的角色 A. 提取高维度输入的特征 在强化学习中,智能体通常需要处理高维度的输入,例如视频帧或图像。DCNNs能够自动提取这些高维度输入中的重

    作者: Y-StarryDreamer
    发表时间: 2024-05-20 14:36:20
    5
    0
  • 强化学习:原理与Python实现 》 —1.2 强化学习的应用

    1.2 强化学习的应用基于强化学习的人工智能已经有了许多成功的应用。本节将介绍强化学习的一些成功案例,让你更直观地理解强化学习,感受强化学习的强大。电动游戏:电动游戏,主要指玩家需要根据屏幕画面的内容进行操作的游戏,包括主机游戏吃豆人(PacMan,见图1-2)、PC游戏星际争霸

    作者: 华章计算机
    发表时间: 2019-11-12 20:15:36
    8091
    0
  • 强化学习:原理与Python实现 》 —1.4 强化学习的分类

    1.4 强化学习的分类强化学习的任务和算法多种多样,本节介绍一些常见的分类(见图1-6)。图1-6 强化学习的分类1.4.1 按任务分类根据强化学习的任务和环境,可以将强化学习任务作以下分类。单智能体任务(single agent task)和多智能体任务(multi-agent

    作者: 华章计算机
    发表时间: 2019-11-12 20:18:30
    6835
    0
  • 值分布强化学习

    模型统计意义的人为规定。值分布强化学习方法是一类新兴的强化学习方法,达到了非分布式强化学习方法上新的基准性能,在 Atari 基准上超过了原有的基于期望的 value-based RL 方法。另外,也有研究人员发现了值分布强化学习与神经科学的内在联系。因此,值分布强化学习方法具有很高的研究价

    作者: yyy7124
    1507
    5
  • 强化学习算法选择

    强化学习算法选择在机器学习中,数据不同会导致算法表现不同。同样地,在强化学习中,由于目标环境的多样性,算法在不同环境中表现截然不同。另外,结合业务场景,开发者在其他维度(如算法输出动作的连续性或离散性、算法的学习效率等)上可能还有不同的要求。因此,选择合适的强化学习算法是一个很重

    作者: 黄生
    14
    0
  • 【话题讨论】强化学习

    状态空间大,且不稀疏的情形下,强化学习dqn方法的效果不好,大家都有哪些比较好的处理方法呢?欢迎大家讨论

    作者: xia1111
    625
    2