已找到以下 10000 条记录
  • 使用强化学习内置环境

    05/10/214611s75kapmgyvyjhb7n.png) #### 进入AI Gallery订阅强化学习算法 ModelArts预置的强化学习算法(名为“强化学习预置算法”)发布在AI Gallery中。您可以前往AI Gallery,订阅此模型,然后同步至ModelArts中。

    作者: 运气男孩
    925
    1
  • 强化学习网络模型

    每一个自主体是由两个神经网络模块组成,即行动网络和评估网络。行动网络是根据当前的状态而决定下一个时刻施加到环境上去的最好动作。对于行动网络,强化学习算法允许它的输出结点进行随机搜索,有了来自评估网络的内部强化信号后,行动网络的输出结点即可有效地完成随机搜索并且大大地提高选择好的动作的

    作者: QGS
    419
    1
  • AI技术领域课程--强化学习

    强化学习是机器学习中与监督学习、无监督学习、半监督学习并驾齐驱的四大算法思想之一,强化学习思想接近人类的学习过程,且在游戏、自动驾驶、电商等领域获得了极大的成功。本课程将从强化学习的基础开始,一步一步揭开强化学习的神秘面纱,帮助大家使用强化学习思想解决实际应用问题。

  • 强化学习算法中SARSA

    这使得SARSA算法更适合于处理连续决策问题,如强化学习中的马尔可夫决策过程(Markov Decision Process)。 总之,SARSA是一种基于状态-动作-奖励-下一个状态-下一个动作的模式进行学习和决策的强化学习算法。它通过差分更新的方式逐步调整状态-动作对的价值

    作者: 皮牙子抓饭
    发表时间: 2023-08-29 09:12:54
    5
    0
  • easyRL学习笔记:强化学习基础

    习是异策略的每次算maxQ,第六章深度Q网络是只属于异策略部分的一个深度算法。 第六章刚开始的价值函数近似只有Q函数近似,是不是就是说策略迭代时候从Q表格找maxQ用近似函数代替,价值迭代时候不需要近似V函数,然后这个近似Q和不近似的V再用深度网络训练。 DQN里还有目标网络,是

    作者: irrational
    发表时间: 2022-08-30 16:46:05
    288
    0
  • 强化学习(十二) Dueling DQN

      在强化学习(十一) Prioritized Replay DQN中,我们讨论了对DQN的经验回放池按权重采样来优化DQN算法的方法,本文讨论另一种优化方法,Dueling DQN。本章内容主要参考了ICML 2016的deep RL tutorial和Dueling

    作者: 格图洛书
    发表时间: 2021-12-29 15:24:28
    449
    0
  • 一文读懂人工智能、机器学习、深度学习、强化学习的关系(必看)

    数据预测。 5、人工智能强化学习 (<<< 点开立即免费看)  随着深度学习技术的流行,深度学习中的一些主流技术(如深度卷积神经网络、序列建模、记忆管理等)与强化学习在许多应用场景上出现了结合点,例如使用深度卷积网络来获取游戏画面的回放,然后结合强化学习本身的机制来训练出可以自己

    作者: 牛油果
    发表时间: 2019-02-15 10:44:46
    12316
    1
  • 强化学习心得4

    从SARSA到Q-learning接下来介绍SARSA与Q-learning算法,算法步骤如下所示:引用《introduction to reinforcement learning》一书中的伪代码如下所示:两者的区别在于而Sarsa在每一步中以e-greedy的策略选取下一个状

    作者: xia1111
    850
    3
  • 强化学习心得3

    从SARSA到Q-learning对于智能体agent来说,要做的就是在环境中不断尝试而学习得到一个“策略”π,根据这个策略,在状态x下就能得知要执行的动作a = π(x)。图中的r即为状态动作的价值。通常我们使用Q表格来储存每一个状态下选择某一种动作所带来的价值。如上图所示通常

    作者: xia1111
    1147
    5
  • 学习《强化学习的落地实践》有感

    今天观看了郝建业老师的《强化学习落地实践》的报告直播,颇有收获。首先,郝建业老师对强化学习的基本知识、发展历史进行了讲解,展示了深度学习与强化学习的深层差异。 随后,老师讲解了目前的深度强化学习存在的问题:学习效率底下,所需资源庞大。相比之下,人类不是从头学习,而是从过往的知识中

    作者: Thund1r
    发表时间: 2020-03-13 18:05:39
    10540
    0
  • 深度Q网络遇上注意力机制:解锁强化学习新高度》

    强化学习领域,深度Q网络(DQN)凭借其将深度学习与Q学习相结合的独特优势,在解决复杂决策问题上取得了显著成果,如在Atari游戏中展现出超越人类的游戏水平。然而,面对复杂多变的现实环境,传统DQN在处理信息时存在局限性,难以聚焦关键要素。此时,注意力机制的引入为优化DQN带来

    作者: 程序员阿伟
    发表时间: 2025-02-15 17:32:21
    0
    0
  • 【RL】元强化学习(MRL)VS 基于迁移学习的强化学习(RL-TL)

    基于迁移学习的强化学习(RL-TL)》 元强化学习(MRL)VS 基于迁移学习的强化学习(RL-TL) 目录 1.元强化学习(Meta Reinforcement Learning)与基于迁移学习的强化学习之间的区别 2.具体解释 3.两者的应用场景 4.总结 5.元学习(Meta

    作者: 不去幼儿园
    发表时间: 2024-12-03 08:23:44
    49
    0
  • 【MindSpore易点通】强化学习系列之强化学习的基本求解方法(一)

    1. 简介上一节主要介绍了强化学习的基本概念,主要是通过设定场景带入强化学习的策略、奖励、状态、价值进行介绍。有了基本的元素之后,就借助马尔可夫决策过程将强化学习的任务抽象出来,最后使用贝尔曼方程进行表述。本次内容主要是介绍强化学习的求解方法。也等同于优化贝尔曼方程。2. 贝尔曼

    作者: chengxiaoli
    1353
    0
  • 【AI理论】台湾大学李宏毅深度强化学习笔记(49PPT)

    是监督式方法让机器去学习,就会变成你教授5-5后,第二手教机器下3-3,一步一步的带下法。但强化学习不一样,是到棋局结束才有奖励。阿法狗的算法则是,监督式先学习许多的棋谱,然后才用强化学习去探索更多棋谱跟走法。我们用语音机器人举例。一开始的监督则是从你一句我一句训练,然后根据动作

    作者: HWCloudAI
    发表时间: 2019-08-06 20:18:08
    5767
    0
  • 【干货分享】强化学习入门之旅

    望在这篇文章中为读者呈现出强化学习的真实面貌,让我们明白什么是强化学习能做的而且能出色完成的,而哪些又仅仅是停留在纸面上的假设而已。同时作者还认为机器学习中的一些重要问题将可以通过强化学习的角度予以解决。</align><align=left> 强化学习令人不解的原因主要在于它需

    作者: 小圆子
    13984
    3
  • 基于强化学习的推荐研究综述

    分析了强化学习对推荐系统的提升思路,对近年来基于强化学习的推荐研究进行了梳理与总结,并分别对传统强化学习推荐和深度强化学习推荐的研究情况进行总结;在此基础上,重点总结了近年来强化学习推荐研究的若干前沿,以及其应用研究情况。最后,对强化学习在推荐系统中应用的未来发展趋势进行分析与展望。http://www

    作者: 可爱又积极
    1060
    3
  • MindSpore AC算法强化学习

    AC算法,也称为Actor-Critic算法,是强化学习中的一种重要方法。它结合了策略梯度方法和价值函数方法的优点,主要由两部分组成:演员(Actor)和评论家(Critic)。 演员(Actor): 负责根据当前状态选择动作。 通常采用策略函数 π(a|s) 来表示在给定状态

    作者: irrational
    发表时间: 2024-06-04 12:17:36
    11
    0
  • 基于强化学习的推荐研究综述

    分析了强化学习对推荐系统的提升思路,对近年来基于强化学习的推荐研究进行了梳理与总结,并分别对传统强化学习推荐和深度强化学习推荐的研究情况进行总结;在此基础上,重点总结了近年来强化学习推荐研究的若干前沿,以及其应用研究情况。最后,对强化学习在推荐系统中应用的未来发展趋势进行分析与展望。http://www

    作者: 可爱又积极
    1335
    5
  • 【话题讨论】强化学习的应用

    强化学习是一门逐渐兴起的学科,与传统的机器学习不同,强化学习以“试错”的方式进行学习,通过与环境进行交互获得的奖赏指导行为,目标是使智能体获得最大的奖赏。在业界,强化学习还广泛应用于各类游戏AI的开发中。最为著名的便是alphago击败了围棋世界冠军李世石与柯洁。除此之外,例如在

    作者: xia1111
    1750
    10
  • 【MindSpore易点通】强化学习系列之强化学习的基本求解方法(二)

    不管这条路会有多危险。而Sarsa则是相当保守,他会选择规避特殊情况,达到目的是次要的,首先要保障安全性,这就是使用Sarsa方法的不同之处。参考文献[1] 陈雷.深度学习与MindSpore实践[M].清华大学出版社:2020.[2] 诸葛越,葫芦娃.百面机器学习[M].人民邮电出版社:2020.

    作者: chengxiaoli
    1253
    0