已找到以下 10000 条记录
  • 强化学习(十)Double DQN (DDQN)

       在强化学习(九)Deep Q-Learning进阶之Nature DQN中,我们讨论了Nature DQN的算法流程,它通过使用两个相同的神经网络,以解决数据样本和网络训练之前的相关性。但是还是有其他值得优化的点,文本就关注于Nature

    作者: 格图洛书
    发表时间: 2021-12-29 16:11:29
    931
    0
  • 强化学习AI的未来发展

    随着人工智能技术的不断发展,强化学习成为了一个备受关注的热门领域。作为一项能够让机器模仿人类决策过程的技术,强化学习在日常生活中得到了广泛的应用。在这篇文章中,我们将探讨强化学习AI的未来发展,在未来的数年中,我们有望看到它成为AI技术的主要引擎之一。 强化学习是一种让机器通过学习来达

    作者: 赵KK日常技术记录
    发表时间: 2023-06-25 18:01:06
    12
    0
  • 强化学习实战-datawhale组队学习

    先把代码clone一下。 然后,就大概了解了一下,创建工作环境,展示变量之类。 然后就是眼花缭乱的训练过程

    作者: irrational
    发表时间: 2022-08-22 14:53:24
    162
    0
  • 一文读懂人工智能、机器学习、深度学习、强化学习的关系(必看)

    数据预测。 5、人工智能强化学习 (<<< 点开立即免费看)  随着深度学习技术的流行,深度学习中的一些主流技术(如深度卷积神经网络、序列建模、记忆管理等)与强化学习在许多应用场景上出现了结合点,例如使用深度卷积网络来获取游戏画面的回放,然后结合强化学习本身的机制来训练出可以自己

    作者: 牛油果
    发表时间: 2019-02-15 10:44:46
    12316
    1
  • 强化学习组合优化综述论文

    工构造的启发式算法,这些启发式算法能够依次地构造解决方案。这种启发式方法是由领域专家设计的,且一般由于问题的困难性,这种方法不是最佳的。强化学习(RL)提出了一种很好的选择,使用监督或自我监督的方式训练 agent 来自动搜索这些启发式方法。在这篇调研中,我们探索了将 RL 框架

    作者: 可爱又积极
    10373
    10
  • 【ICML2021】密度约束强化学习

    Fanhttps://www.zhuanzhi.ai/paper/4fa1ffa9d790da75a55a7f6e0aef8821我们从一个新的角度研究约束强化学习(CRL),通过直接设置状态密度函数的约束,而不是以往研究中考虑的值函数。状态密度具有清晰的物理和数学解释,并能够表达各种各样的约束,如

    作者: 可爱又积极
    422
    1
  • 【AAAI2020】强化学习玩王者荣耀

    Controlin MOBA Games with DeepReinforcement Learning 主要贡献 提出了一个深度强化学习框架,从系统和算法的角度来解决这个问题。提出的算法包括几种新颖的策略,包括control dependency decoupling,action

    作者: 小小谢先生
    发表时间: 2022-04-15 18:04:28
    572
    0
  • 浅谈强化学习基本模型和原理

    强化学习是从动物学习、参数扰动自适应控制等理论发展而来,其基本原理是:如果Agent的某个行为策略导致环境正的奖赏(强化信号),那么Agent以后产生这个行为策略的趋势便会加强。Agent的目标是在每个离散状态发现最优策略以使期望的折扣奖赏和最大。强化学习强化学习把学习看作试探评

    作者: QGS
    36
    2
  • 强化学习(十三) 策略梯度(Policy Gradient)

    Gradient),它是Policy Based强化学习方法,基于策略来学习。     本文参考了Sutton的强化学习书第13章和策略梯度的论文。 1.&nbsp;Value Based强化学习方法的不足     DQN系列强化学习算法主要的问题主要有三点。     第一点

    作者: 格图洛书
    发表时间: 2021-12-29 15:59:35
    417
    0
  • 强化学习(十四) Actor-Critic

     在强化学习(十三) 策略梯度(Policy Gradient)中,我们讲到了基于策略(Policy Based)的强化学习方法的基本思路,并讨论了蒙特卡罗策略梯度reinforce算法。但是由于该算法需要完整的状态序列,同时单独对策略函数进行迭代更新,不太容易收敛。

    作者: 格图洛书
    发表时间: 2021-12-29 17:07:03
    477
    0
  • 【RL】强化学习入门:从基础到应用

     本篇文章是博主强化学习RL领域学习时,用于个人学习、研究或者欣赏使用,并基于博主对相关等领域的一些理解而记录的学习摘录和笔记,若有不当和侵权之处,指出后将会立即改正,还望谅解。文章强化学习:        强化学习(1)---《【RL】强化学习入门:从基础到应用》 【RL】强化学习入门:从基础到应用

    作者: 不去幼儿园
    发表时间: 2024-12-02 19:08:54
    7
    0
  • AI市场强化学习预置算法实践----使用强化学习训练智能体玩转Atari小游戏(1)

    13年发表一篇工作,将深度学习运用到强化学习任务上。随着算法改进,DeepMind的研究者使用DQN(Deep Q Network)进行Atari游戏,有接近一半的游戏上,智能体水平都超过的了人类。本篇博客,就教你使用ModelArts的AI市场上强化学习预置算法,0代码训练一个

    作者: 灰灰爱喝粥
    发表时间: 2020-09-12 17:28:33
    9191
    0
  • OpenAI Gym 中级教程——深入强化学习算法

    中级教程:深入强化学习算法 OpenAI Gym 是一个用于开发和比较强化学习算法的工具包,提供了多个环境,包括经典的控制问题和 Atari 游戏。本篇博客将深入介绍 OpenAI Gym 中的强化学习算法,包括深度 Q 网络(Deep Q Network, DQN)和深度确定性策略梯度(Deep

    作者: Echo_Wish
    发表时间: 2024-01-29 08:45:50
    14
    0
  • 分享IMPALA:大规模强化学习算法

    论文名称:Scalable Distributed Deep-RL with Importance Weighted Actor-Learner Architectures作者:Lasse Espeholt / Hubert Soyer / Remi Munos / Karen Simonyan

    作者: 初学者7000
    1365
    4
  • 强化学习第一课复习

    智能体不能得到即时的反馈,所以很困难。 1-3 强化学习的基本特征有哪些? (1)强化学习会试错探索,它通过探索环境来获取对环境的理解。 (2)强化学习智能体会从环境里面获得延迟的奖励。 (3)在强化学习的训练过程中,时间非常重要。因为我们得到的是有时间关联的数据(sequential

    作者: livingbody
    发表时间: 2022-11-15 08:36:03
    186
    0
  • 强化学习(十五) A3C

     在强化学习(十四) Actor-Critic中,我们讨论了Actor-Critic的算法流程,但是由于普通的Actor-Critic算法难以收敛,需要一些其他的优化。而Asynchronous Advantage Actor-criti

    作者: 格图洛书
    发表时间: 2021-12-29 16:15:54
    346
    0
  • OpenAI Gym 中级教程——强化学习实践项目

    Python OpenAI Gym 中级教程:强化学习实践项目 在本篇博客中,我们将通过一个实际项目来演示如何在 OpenAI Gym 中应用强化学习算法。我们选择一个简单而经典的问题:CartPole,这是一个控制小车平衡杆的问题。我们将使用深度 Q 网络(DQN)算法来解决这个问题。

    作者: Echo_Wish
    发表时间: 2024-02-01 09:12:19
    67
    0
  • [ 转载 ] 六节课入门「深度强化学习」,UC伯克利教授Pieter Abbeel开课了

    将传统强化学习深度神经网络结合的深度强化学习,一直以来被视为更接近人类思维方式的人工智能方法。深度学习具备强感知能力但缺乏一定的决策能力,强化学习具备决策能力但对感知问题束手无策,因此将两者结合起来可以达到优势互补的效果,为复杂系统的感知决策问题提供了解决思路。 想要入门深度强化

    作者: MKT 黄不正
    4111
    5
  • 探索Python中的强化学习:SARSA

    强化学习是一种机器学习方法,用于训练智能体(agent)在与环境的交互中学习如何做出最优决策。SARSA是强化学习中的一种基于状态-行动-奖励-下一个状态的方法,用于学习最优策略。本文将详细介绍SARSA的原理、实现方式以及如何在Python中应用。 什么是SARSA? SAR

    作者: Echo_Wish
    发表时间: 2024-03-31 13:21:07
    3
    0
  • 强化学习算法中Q-learning

    强化学习是一种机器学习方法,用于训练智能体在与环境交互的过程中学习最佳行动策略。Q-learning是强化学习中的一种基于值函数的算法,用于解决马尔科夫决策问题。 Q-learning的核心思想是通过学习一个状态-动作值函数(Q函数),来指导智能体在环境中选择最佳的行动。Q函数

    作者: 皮牙子抓饭
    发表时间: 2023-08-29 09:12:09
    5
    0