搜索_华为云

内容选择

内容分类

学堂博客论坛开发服务开发工具直播视频用户

时间

一周一个月三个月

内容选择

全部

内容选择

内容分类

学堂
博客
论坛
开发服务
开发工具
直播
视频
用户

时间

一周
一个月
三个月

强化学习算法中SARSA
强化学习算法中SARSA

这使得SARSA算法更适合于处理连续决策问题，如强化学习中的马尔可夫决策过程（Markov Decision Process）。总之，SARSA是一种基于状态-动作-奖励-下一个状态-下一个动作的模式进行学习和决策的强化学习算法。它通过差分更新的方式逐步调整状态-动作对的价值

开发者 > 博客

作者：皮牙子抓饭

发表时间： 2023-08-29 09:12:54

5

0
easyRL学习笔记：强化学习基础
easyRL学习笔记：强化学习基础

习是异策略的每次算maxQ，第六章深度Q网络是只属于异策略部分的一个深度算法。第六章刚开始的价值函数近似只有Q函数近似，是不是就是说策略迭代时候从Q表格找maxQ用近似函数代替，价值迭代时候不需要近似V函数，然后这个近似Q和不近似的V再用深度网络训练。 DQN里还有目标网络，是

开发者 > 博客

作者： irrational

发表时间： 2022-08-30 16:46:05

288

0
强化学习心得4
强化学习心得4

从SARSA到Q-learning接下来介绍SARSA与Q-learning算法，算法步骤如下所示：引用《introduction to reinforcement learning》一书中的伪代码如下所示：两者的区别在于而Sarsa在每一步中以e-greedy的策略选取下一个状

开发者 > 其他

作者： xia1111

850

3
强化学习心得3
强化学习心得3

从SARSA到Q-learning对于智能体agent来说，要做的就是在环境中不断尝试而学习得到一个“策略”π，根据这个策略，在状态x下就能得知要执行的动作a = π(x)。图中的r即为状态动作的价值。通常我们使用Q表格来储存每一个状态下选择某一种动作所带来的价值。如上图所示通常

开发者 > 其他

作者： xia1111

1147

5
【MindSpore易点通】强化学习系列之强化学习的基本求解方法(一)

1. 简介上一节主要介绍了强化学习的基本概念，主要是通过设定场景带入强化学习的策略、奖励、状态、价值进行介绍。有了基本的元素之后，就借助马尔可夫决策过程将强化学习的任务抽象出来，最后使用贝尔曼方程进行表述。本次内容主要是介绍强化学习的求解方法。也等同于优化贝尔曼方程。2. 贝尔曼

开发者 > 其他

作者： chengxiaoli

1353

0
一文读懂人工智能、机器学习、深度学习、强化学习的关系（必看）

数据预测。 5、人工智能强化学习（<<< 点开立即免费看）随着深度学习技术的流行，深度学习中的一些主流技术（如深度卷积神经网络、序列建模、记忆管理等）与强化学习在许多应用场景上出现了结合点，例如使用深度卷积网络来获取游戏画面的回放，然后结合强化学习本身的机制来训练出可以自己

开发者 > 博客

作者：牛油果

发表时间： 2019-02-15 10:44:46

12316

1
强化学习(十二) Dueling DQN
强化学习(十二) Dueling DQN

　　在强化学习(十一) Prioritized Replay DQN中，我们讨论了对DQN的经验回放池按权重采样来优化DQN算法的方法，本文讨论另一种优化方法，Dueling DQN。本章内容主要参考了ICML 2016的deep RL tutorial和Dueling

开发者 > 博客

作者：格图洛书

发表时间： 2021-12-29 15:24:28

449

0
学习《强化学习的落地实践》有感

今天观看了郝建业老师的《强化学习落地实践》的报告直播，颇有收获。首先，郝建业老师对强化学习的基本知识、发展历史进行了讲解，展示了深度学习与强化学习的深层差异。随后，老师讲解了目前的深度强化学习存在的问题：学习效率底下，所需资源庞大。相比之下，人类不是从头学习，而是从过往的知识中

开发者 > 博客

作者： Thund1r

发表时间： 2020-03-13 18:05:39

10540

0
【干货分享】强化学习入门之旅

望在这篇文章中为读者呈现出强化学习的真实面貌，让我们明白什么是强化学习能做的而且能出色完成的，而哪些又仅仅是停留在纸面上的假设而已。同时作者还认为机器学习中的一些重要问题将可以通过强化学习的角度予以解决。</align><align=left> 强化学习令人不解的原因主要在于它需

开发者 > 其他

作者：小圆子

13984

3
《深度Q网络遇上注意力机制：解锁强化学习新高度》

在强化学习领域，深度Q网络（DQN）凭借其将深度学习与Q学习相结合的独特优势，在解决复杂决策问题上取得了显著成果，如在Atari游戏中展现出超越人类的游戏水平。然而，面对复杂多变的现实环境，传统DQN在处理信息时存在局限性，难以聚焦关键要素。此时，注意力机制的引入为优化DQN带来

开发者 > 博客

作者：程序员阿伟

发表时间： 2025-02-15 17:32:21

0

0
【RL】元强化学习（MRL）VS 基于迁移学习的强化学习（RL-TL）

基于迁移学习的强化学习（RL-TL）》元强化学习（MRL）VS 基于迁移学习的强化学习（RL-TL）目录 1.元强化学习（Meta Reinforcement Learning）与基于迁移学习的强化学习之间的区别 2.具体解释 3.两者的应用场景 4.总结 5.元学习（Meta

开发者 > 博客

作者：不去幼儿园

发表时间： 2024-12-03 08:23:44

49

0
【AI理论】台湾大学李宏毅深度强化学习笔记(49PPT)

是监督式方法让机器去学习，就会变成你教授5-5后，第二手教机器下3-3，一步一步的带下法。但强化学习不一样，是到棋局结束才有奖励。阿法狗的算法则是，监督式先学习许多的棋谱，然后才用强化学习去探索更多棋谱跟走法。我们用语音机器人举例。一开始的监督则是从你一句我一句训练，然后根据动作

开发者 > 博客

作者： HWCloudAI

发表时间： 2019-08-06 20:18:08

5767

0
强化学习在游戏中的应用
强化学习在游戏中的应用

为奖赏的依据，可以利用深度强化学习来训练智能体做出合理的动作序列。例如，伯克利的研究人员提出的DeepMimic系统，通过深度强化学习模仿人类动作，生成高质量的角色动画。5. 个性化推荐游戏中存在大量的个性化推荐场景，如道具推荐、关卡推荐等。强化学习可以根据玩家的特征、游戏内信息

开发者 > 其他

作者： Jack20

6

0
基于强化学习的推荐研究综述
基于强化学习的推荐研究综述

分析了强化学习对推荐系统的提升思路,对近年来基于强化学习的推荐研究进行了梳理与总结,并分别对传统强化学习推荐和深度强化学习推荐的研究情况进行总结;在此基础上,重点总结了近年来强化学习推荐研究的若干前沿,以及其应用研究情况。最后,对强化学习在推荐系统中应用的未来发展趋势进行分析与展望。http://www

开发者 > 其他

作者：可爱又积极

1060

3
MindSpore AC算法强化学习
MindSpore AC算法强化学习

AC算法，也称为Actor-Critic算法，是强化学习中的一种重要方法。它结合了策略梯度方法和价值函数方法的优点，主要由两部分组成：演员（Actor）和评论家（Critic）。演员（Actor）：负责根据当前状态选择动作。通常采用策略函数 π(a|s) 来表示在给定状态

开发者 > 博客

作者： irrational

发表时间： 2024-06-04 12:17:36

11

0
基于强化学习的推荐研究综述
基于强化学习的推荐研究综述

分析了强化学习对推荐系统的提升思路,对近年来基于强化学习的推荐研究进行了梳理与总结,并分别对传统强化学习推荐和深度强化学习推荐的研究情况进行总结;在此基础上,重点总结了近年来强化学习推荐研究的若干前沿,以及其应用研究情况。最后,对强化学习在推荐系统中应用的未来发展趋势进行分析与展望。http://www

开发者 > 其他

作者：可爱又积极

1335

5
【话题讨论】强化学习的应用
【话题讨论】强化学习的应用

强化学习是一门逐渐兴起的学科，与传统的机器学习不同，强化学习以“试错”的方式进行学习，通过与环境进行交互获得的奖赏指导行为，目标是使智能体获得最大的奖赏。在业界，强化学习还广泛应用于各类游戏AI的开发中。最为著名的便是alphago击败了围棋世界冠军李世石与柯洁。除此之外，例如在

开发者 > 其他

作者： xia1111

1750

10
【MindSpore易点通】强化学习系列之强化学习的基本求解方法(二)

不管这条路会有多危险。而Sarsa则是相当保守,他会选择规避特殊情况，达到目的是次要的，首先要保障安全性，这就是使用Sarsa方法的不同之处。参考文献[1] 陈雷.深度学习与MindSpore实践[M].清华大学出版社：2020.[2] 诸葛越，葫芦娃.百面机器学习[M].人民邮电出版社：2020.

开发者 > 其他

作者： chengxiaoli

1253

0
强化学习的使用范围
强化学习的使用范围

一　　尽管我们在机器学习社区中广泛使用强化学习，但强化学习不仅仅是一个人工智能术语，它是许多领域中的一个中心思想，如下图（强化学习的多个方面，Many Faces of Reinforcement Learning）所示。二　　事实上，许多这些领域面临着与机器学习相同的问题：如何优化决策以实现最佳结果，这就是决策科学

开发者 > 其他

作者：我就是豆豆

389

0
【论文分享】基于深度强化学习的无人机数据采集和路径规划研究

传感器网络数据采集时的路径规划问题进行了研究，同时满足无人机自身因电池容量有限而产生的充电需求。具体地，利用时间抽象分层强化学习思想，基于离散动作深度强化学习架构，提出了一种新颖的option-DQN（option-deep Q-learning）算法，实现了高效的无人机数据采集

开发者 > 其他

作者：乔天伊

460

2

总条数： 10000

上一页
1
...
4
5
6
...
500
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

强化学习算法中SARSA

easyRL学习笔记：强化学习基础

强化学习心得4

强化学习心得3

【MindSpore易点通】强化学习系列之强化学习的基本求解方法(一)

一文读懂人工智能、机器学习、深度学习、强化学习的关系（必看）

强化学习(十二) Dueling DQN

学习《强化学习的落地实践》有感

【干货分享】强化学习入门之旅

《深度Q网络遇上注意力机制：解锁强化学习新高度》

【RL】元强化学习（MRL）VS 基于迁移学习的强化学习（RL-TL）

【AI理论】台湾大学李宏毅深度强化学习笔记(49PPT)

强化学习在游戏中的应用

基于强化学习的推荐研究综述

MindSpore AC算法强化学习

基于强化学习的推荐研究综述

【话题讨论】强化学习的应用

【MindSpore易点通】强化学习系列之强化学习的基本求解方法(二)

强化学习的使用范围

【论文分享】基于深度强化学习的无人机数据采集和路径规划研究

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线