已找到以下 10000 条记录
  • 李飞飞提出深度进化强化学习新框架:创建具身智能体学会动物进化法则

    复杂的任务。研究人员称,AI智能体也可以很快学会动物的这种智能行为,但目前推动具身认知面临很多挑战。最近斯坦福李飞飞教授等人的研究「深度进化强化学习」有了突破,首次证明了「鲍德温效应」。 智能体/代理(Agents)是人工智能领域的一个主要研究课题,分为非具身智能和具身智能。 而

    作者: HWCloudAI
    发表时间: 2021-02-18 16:23:42
    4651
    1
  • 演化算法与遗传算法在强化学习中的创新应用

    敛速度和效果。 V. 实际应用案例 A. 机器人路径规划 环境设置:在模拟环境中设置机器人路径规划任务。 策略网络设计:使用全连接网络处理机器人状态输入,输出动作。 演化算法优化策略:使用GA优化机器人路径规划策略。 import gym env = gym.ma

    作者: Y-StarryDreamer
    发表时间: 2024-05-20 14:37:40
    4
    0
  • 强化学习:原理与Python实现 》 —1.5.2 学习资源

    1.5.2 学习资源本书作为一套完整的强化学习教程,将引领读者实现从入门到精通。同时,如果还希望阅读英文教程对照参考,推荐Richard Sutton等在2018年出版的《Reinforcement Learning: An Introduction(第2版)》。该书和本书使用相

    作者: 华章计算机
    发表时间: 2019-11-12 20:34:21
    2541
    0
  • 强化学习(十八) 基于模拟的搜索与蒙特卡罗树搜索(MCTS)

    强化学习(十七) 基于模型的强化学习与Dyna算法框架中,我们讨论基于模型的强化学习方法的基本思路,以及集合基于模型与不基于模型的强化学习框架Dyna。本文我们讨论另一种非常流行的集合基于模型与不基于模型的强化学习方法:基于模拟的搜索(Simulation

    作者: 格图洛书
    发表时间: 2021-12-29 16:12:09
    782
    0
  • 强化学习中的模型集成与融合策略综述

    方面,研究人员通过集成多个智能体的策略来提高游戏玩家的水平。 随着深度学习技术的发展,模型集成与融合策略也在不断演进。例如,一些研究人员提出了基于深度强化学习的模型集成方法,通过训练一个神经网络来整合多个强化学习模型的输出。这些方法不仅提高了模型的性能,还提高了模型的泛化能力和稳定性。

    作者: Y-StarryDreamer
    发表时间: 2024-05-20 15:58:15
    5
    0
  • 强化学习中的对抗性训练策略探索

    I. 引言 在强化学习(Reinforcement Learning,RL)领域,对抗性训练策略的探索一直备受关注。随着深度学习和强化学习的不断发展,对抗性训练策略在提高模型的鲁棒性、应对环境变化和攻击等方面具有重要意义。本文将探讨在强化学习中对抗性训练策略的相关概念、方法和应用,以及一些典型的案例研究。

    作者: Y-StarryDreamer
    发表时间: 2024-05-20 15:22:35
    4
    0
  • 【RL Base】强化学习:信赖域策略优化(TRPO)算法

           📢本篇文章是博主强化学习(RL)领域学习时,用于个人学习、研究或者欣赏使用,并基于博主对相关等领域的一些理解而记录的学习摘录和笔记,若有不当和侵权之处,指出后将会立即改正,还望谅解。文章分类在👉强化学习专栏:        【强化学习】(12)---《信赖域策略优化(TRPO)算法》

    作者: 不去幼儿园
    发表时间: 2024-12-03 08:33:38
    45
    0
  • 【RL】基于迁移学习的强化学习(RL-TL)算法

    1633-1685. 2. "深度强化学习中的迁移学习:综述"(Tianjun Zhang 等, 2020) 摘要:        这篇论文扩展了迁移学习在**深度强化学习(Deep Reinforcement Learning, DRL)**中的应用,重点介绍了在深度强化学习中使用的迁移机制

    作者: 不去幼儿园
    发表时间: 2024-12-02 20:22:12
    42
    0
  • 【RL Latest Tech】分层强化学习(Hierarchical RL)

        📢本篇文章是博主强化学习RL领域学习时,用于个人学习、研究或者欣赏使用,并基于博主对相关等领域的一些理解而记录的学习摘录和笔记,若有不当和侵权之处,指出后将会立即改正,还望谅解。文章分类在👉强化学习专栏:        【强化学习】(22)---《分层强化学习(Hierarchical

    作者: 不去幼儿园
    发表时间: 2024-12-05 20:20:45
    105
    0
  • 强化学习:原理与Python实现 》 —3.6 本章小结

    3.6 本章小结本章对动力已知的Markov决策过程进行迭代的策略评估和最优策略求解。严格意义上说,这些迭代算法都是求解Bellman方程的数值算法,而不是从数据中进行学习的机器学习算法。从下一章开始,我们将利用经验进行学习,进入机器学习的部分。本章要点策略评估是求解给定策略的价

    作者: 华章计算机
    发表时间: 2019-11-13 12:32:19
    2416
    0
  • 强化学习中的探索与利用平衡策略设计与训练

    I. 引言 强化学习(Reinforcement Learning, RL)是一种通过与环境交互来学习最优策略的机器学习方法。强化学习中的一个关键问题是探索与利用的平衡,即在学习过程中,如何在探索新的动作(以获取更多信息)和利用已有知识(以最大化奖励)之间取得平衡。本文将详细探

    作者: Y-StarryDreamer
    发表时间: 2024-05-20 14:38:54
    2
    0
  • 油田勘探中的强化学习技术应用探索

    强化学习简介 强化学习是一种机器学习的分支,它通过智能体与环境的交互来学习最优的行动策略。在油田勘探中,我们可以将油井生产系统看作一个强化学习环境,智能体则是用于控制和优化油井操作的决策算法。 强化学习在油田勘探中的应用 1. 油井生产优化 强化学习可以应用于优化油井的

    作者: 皮牙子抓饭
    发表时间: 2023-06-30 20:06:40
    7
    0
  • 撩一下强化学习(Reinforcement Learning)的发展趋势

    的机器学习不太一样,后来发现讲的是强化学习,后面读过一些文章说的是强化学习会是未来人工智能的发展趋势,但个人看到的目前很多课程和应用平台,还是以传统的机器学习和深度学习为主流,而后面出现的深度强化学习,再次刷新出新的篇章。探讨下,如何看待强化学习的发展?

    作者: RabbitCloud
    1783
    5
  • 强化学习从基础到进阶–案例与实践[11]:AlphaStar论文解读、监督学习、强化学习、模仿学习、多智能体学习、消融实验

    强化学习从基础到进阶–案例与实践[11]:AlphaStar论文解读、监督学习、强化学习、模仿学习、多智能体学习、消融实验 AlphaStar及背景简介 相比于之前的深蓝和AlphaGo,对于《星际争霸Ⅱ》等策略对战型游戏,使用AI与人类对战的难度更大。比如在《星际争霸Ⅱ》

    作者: 汀丶
    发表时间: 2023-06-30 15:20:42
    64
    0
  • 强化学习中的自适应与迁移学习模型研究综述

    究方向,通过智能体之间的协作和信息共享,可以实现更高效的学习和决策。 强化学习与其他技术的结合:将强化学习深度学习、演化算法等其他技术相结合,可以进一步提升模型的性能和应用范围。 自适应与迁移学习在强化学习中的应用前景广阔,通过不断的发展和创新,这些方法将为解决实际问题提供更强大的工具和技术支持。

    作者: Y-StarryDreamer
    发表时间: 2024-05-20 14:48:21
    3
    0
  • 强化学习:原理与Python实现 》 —2.5 本章小结

    2.5 本章小结本章介绍了强化学习最重要的数学模型:Markov决策模型。Markov决策模型用动力系统来描述环境,用策略来描述智能体。本章还介绍了策略的价值函数和最优策略的最优价值函数。理论上,价值函数和最优价值函数可以通过Bellman期望方程和Bellman最优方程求解。但

    作者: 华章计算机
    发表时间: 2019-11-13 11:17:46
    2339
    0
  • 强化学习从基础到进阶--案例与实践含面试必知必答[9]:稀疏奖励、reward shaping、curiosity、分层强化学习

    置。然后,新的愿景又跑到上面。然后又摆到上面,最后就走到黄色的位置。这就是分层强化学习。 图 9.11 走迷宫和单摆的例子 最后,我们对分层强化学习进行总结。分层强化学习是指将一个复杂的强化学习问题分解成多个小的、简单的子问题,每个子问题都可以单独用马尔可夫决策过程来建模。

    作者: 汀丶
    发表时间: 2023-06-29 11:35:34
    73
    0
  • 【Hierarchical RL】动态分层强化学习(DHRL)算法

       📢本篇文章是博主强化学习(RL)领域学习时,用于个人学习、研究或者欣赏使用,并基于博主对相关等领域的一些理解而记录的学习摘录和笔记,若有不当和侵权之处,指出后将会立即改正,还望谅解。文章分类在👉强化学习专栏:        【强化学习】(32)---《动态分层强化学习(DHRL)算法》

    作者: 不去幼儿园
    发表时间: 2024-12-05 20:43:23
    709
    0
  • 【RL Latest Tech】分层强化学习:FeUdal Networks算法

     📢本篇文章是博主强化学习RL领域学习时,用于个人学习、研究或者欣赏使用,并基于博主对相关等领域的一些理解而记录的学习摘录和笔记,若有不当和侵权之处,指出后将会立即改正,还望谅解。文章分类在👉强化学习专栏:        【强化学习】(24)---《分层强化学习:FeUdal Networks算法》

    作者: 不去幼儿园
    发表时间: 2024-12-05 20:32:33
    60
    0
  • 学习强化学习,第一步看这里就对了

    Silver的强化学习视频课程)。从大神们的著作中,我们可以学习强化学习的各种概念、算法等,这一步是基础,对以后更深入的强化学习研究学习是必不可少的,学习和调试具体的算法代码可以让我们对概念和算法理解的更彻底(出门左转,来到openAI开源的baselines,强化学习的各种算法应有尽有)。

    作者: ground-zero
    发表时间: 2021-06-30 22:57:40
    1386
    0