搜索_华为云

内容选择

内容分类

学堂博客论坛开发服务开发工具直播视频用户

时间

一周一个月三个月

内容选择

全部

内容选择

内容分类

学堂
博客
论坛
开发服务
开发工具
直播
视频
用户

时间

一周
一个月
三个月

强化学习（三）用动态规划（DP）求解

　　在强化学习（二）马尔科夫决策过程(MDP)中，我们讨论了用马尔科夫假设来简化强化学习模型的复杂度，这一篇我们在马尔科夫假设和贝尔曼方程的基础上讨论使用动态规划(Dynamic Programming, DP)来求解强化学习的问题。　　　　动态规划这

开发者 > 博客

作者：格图洛书

发表时间： 2021-12-29 15:35:19

267

0
强化学习心得3
强化学习心得3

从SARSA到Q-learning对于智能体agent来说，要做的就是在环境中不断尝试而学习得到一个“策略”π，根据这个策略，在状态x下就能得知要执行的动作a = π(x)。图中的r即为状态动作的价值。通常我们使用Q表格来储存每一个状态下选择某一种动作所带来的价值。如上图所示通常

开发者 > 其他

作者： xia1111

1147

5
强化学习心得4
强化学习心得4

从SARSA到Q-learning接下来介绍SARSA与Q-learning算法，算法步骤如下所示：引用《introduction to reinforcement learning》一书中的伪代码如下所示：两者的区别在于而Sarsa在每一步中以e-greedy的策略选取下一个状

开发者 > 其他

作者： xia1111

850

3
easyRL学习笔记：强化学习基础
easyRL学习笔记：强化学习基础

习是异策略的每次算maxQ，第六章深度Q网络是只属于异策略部分的一个深度算法。第六章刚开始的价值函数近似只有Q函数近似，是不是就是说策略迭代时候从Q表格找maxQ用近似函数代替，价值迭代时候不需要近似V函数，然后这个近似Q和不近似的V再用深度网络训练。 DQN里还有目标网络，是

开发者 > 博客

作者： irrational

发表时间： 2022-08-30 16:46:05

288

0
强化学习-云机器人
强化学习-云机器人

强化学习是智能体（Agent）以“试错”的方式进行学习，通过与环境进行交互获得的奖赏指导行为，目标是使智能体获得最大的奖赏，强化学习不同于连接主义学习中的监督学习，主要表现在强化信号上，强化学习中由环境提供的强化信号是对产生动作的好坏作一种评价(通常为标量信号)，而不是告诉强化学

开发者 > 其他

作者： QGS

841

3
一文读懂人工智能、机器学习、深度学习、强化学习的关系（必看）

数据预测。 5、人工智能强化学习（<<< 点开立即免费看）随着深度学习技术的流行，深度学习中的一些主流技术（如深度卷积神经网络、序列建模、记忆管理等）与强化学习在许多应用场景上出现了结合点，例如使用深度卷积网络来获取游戏画面的回放，然后结合强化学习本身的机制来训练出可以自己

开发者 > 博客

作者：牛油果

发表时间： 2019-02-15 10:44:46

12316

1
强化学习的使用范围是什么？
强化学习的使用范围是什么？

尽管我们在机器学习社区中广泛使用强化学习，但强化学习不仅仅是一个人工智能术语，它是许多领域中的一个中心思想，如下图（强化学习的多个方面，Many Faces of Reinforcement Learning）所示。事实上，许多这些领域面临着与机器学习相同的问题：如何优化决策以实现最佳结果，这就是决策科学

开发者 > 其他

作者：极客潇

1486

2
强化学习(十二) Dueling DQN
强化学习(十二) Dueling DQN

　　在强化学习(十一) Prioritized Replay DQN中，我们讨论了对DQN的经验回放池按权重采样来优化DQN算法的方法，本文讨论另一种优化方法，Dueling DQN。本章内容主要参考了ICML 2016的deep RL tutorial和Dueling

开发者 > 博客

作者：格图洛书

发表时间： 2021-12-29 15:24:28

449

0
强化学习游戏训练框架ASED
强化学习游戏训练框架ASED

json说明env_config.py说明game_interface.py说明Benchmark实验数据5. 更多信息强化学习入门课程案例使用强化学习AlphaZero算法训练中国象棋AI与中国象棋AI对战！使用强化学习AlphaZero算法训练五子棋AI使用DQN算法玩2048游戏使用PPO算法玩超级马里奥

开发者 > 其他

作者：开发者创新中心小广播

686

0
可达性约束强化学习
可达性约束强化学习

约束强化学习(CRL)最近引起了人们的极大兴趣，因为满足安全约束对现实世界的问题至关重要。然而，现有的CRL方法对折现累积成本的约束通常缺乏严格的定义和安全性保证。另一方面，在安全控制研究中，安全被定义为持续满足一定的状态约束。这种持久安全只在状态空间的一个子集上是可能的，这个子

开发者 > 其他

作者：可爱又积极

535

2
AI技术领域课程--强化学习
AI技术领域课程--强化学习

强化学习是机器学习中与监督学习、无监督学习、半监督学习并驾齐驱的四大算法思想之一，强化学习思想接近人类的学习过程，且在游戏、自动驾驶、电商等领域获得了极大的成功。本课程将从强化学习的基础开始，一步一步揭开强化学习的神秘面纱，帮助大家使用强化学习思想解决实际应用问题。

开发者 > 开发者学堂
探索Python中的强化学习：DQN
探索Python中的强化学习：DQN

强化学习是一种机器学习方法，用于训练智能体（agent）在与环境的交互中学习如何做出最优决策。DQN（Deep Q-Network）是强化学习中的一种基于深度神经网络的方法，用于学习最优策略。本文将详细介绍DQN的原理、实现方式以及如何在Python中应用。什么是DQN？ D

开发者 > 博客

作者： Echo_Wish

发表时间： 2024-04-01 08:55:17

103

0
MindSpore AC算法强化学习
MindSpore AC算法强化学习

AC算法，也称为Actor-Critic算法，是强化学习中的一种重要方法。它结合了策略梯度方法和价值函数方法的优点，主要由两部分组成：演员（Actor）和评论家（Critic）。演员（Actor）：负责根据当前状态选择动作。通常采用策略函数 π(a|s) 来表示在给定状态

开发者 > 博客

作者： irrational

发表时间： 2024-06-04 12:17:36

11

0
【AI理论】台湾大学李宏毅深度强化学习笔记(49PPT)

是监督式方法让机器去学习，就会变成你教授5-5后，第二手教机器下3-3，一步一步的带下法。但强化学习不一样，是到棋局结束才有奖励。阿法狗的算法则是，监督式先学习许多的棋谱，然后才用强化学习去探索更多棋谱跟走法。我们用语音机器人举例。一开始的监督则是从你一句我一句训练，然后根据动作

开发者 > 博客

作者： HWCloudAI

发表时间： 2019-08-06 20:18:08

5767

0
基于强化学习的推荐研究综述
基于强化学习的推荐研究综述

分析了强化学习对推荐系统的提升思路,对近年来基于强化学习的推荐研究进行了梳理与总结,并分别对传统强化学习推荐和深度强化学习推荐的研究情况进行总结;在此基础上,重点总结了近年来强化学习推荐研究的若干前沿,以及其应用研究情况。最后,对强化学习在推荐系统中应用的未来发展趋势进行分析与展望。http://www

开发者 > 其他

作者：可爱又积极

1334

5
【MindSpore易点通】强化学习系列之强化学习的基本求解方法(二)

不管这条路会有多危险。而Sarsa则是相当保守,他会选择规避特殊情况，达到目的是次要的，首先要保障安全性，这就是使用Sarsa方法的不同之处。参考文献[1] 陈雷.深度学习与MindSpore实践[M].清华大学出版社：2020.[2] 诸葛越，葫芦娃.百面机器学习[M].人民邮电出版社：2020.

开发者 > 其他

作者： chengxiaoli

1253

0
强化学习基本模型和原理
强化学习基本模型和原理

强化学习是从动物学习、参数扰动自适应控制等理论发展而来，其基本原理是：如果Agent的某个行为策略导致环境正的奖赏(强化信号)，那么Agent以后产生这个行为策略的趋势便会加强。Agent的目标是在每个离散状态发现最优策略以使期望的折扣奖赏和最大。强化学习把学习看作试探评价过程，

开发者 > 其他

作者： QGS

728

1
以大模型的角度看待强化学习
以大模型的角度看待强化学习

Learning）等。3. 深度强化学习（Deep Reinforcement Learning）：深度强化学习将深度神经网络与强化学习相结合，通过近似值函数或策略函数来解决高维、连续状态空间和动作空间的问题。这种方法在处理复杂任务时表现出了强大的能力。代表性的算法包括使用深度神经网络的DQN、深度策略梯度方法（Deep

开发者 > 其他

作者：运气男孩

34

1
使用Python实现强化学习算法
使用Python实现强化学习算法

当谈论强化学习时，我们在讨论一种机器学习方法，其目标是教会智能体（agent）在与环境的交互中学习最优的行为策略，以最大化累积奖励。在本文中，我们将介绍强化学习的基本概念，并使用 Python 和 OpenAI 的 Gym 库来实现一个简单的强化学习算法：Q-learning。

开发者 > 博客

作者： Echo_Wish

发表时间： 2024-04-26 08:54:34

61

0
ModelArts使用强化学习内置环境
ModelArts使用强化学习内置环境

05/10/214611s75kapmgyvyjhb7n.png) #### 进入AI Gallery订阅强化学习算法 ModelArts预置的强化学习算法（名为“强化学习预置算法”）发布在AI Gallery中。您可以前往AI Gallery，订阅此模型，然后同步至ModelArts中。

开发者 > 其他

作者：运气男孩

1457

3

总条数： 10000

上一页
1
...
4
5
6
...
500
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

强化学习（三）用动态规划（DP）求解

强化学习心得3

强化学习心得4

easyRL学习笔记：强化学习基础

强化学习-云机器人

一文读懂人工智能、机器学习、深度学习、强化学习的关系（必看）

强化学习的使用范围是什么？

强化学习(十二) Dueling DQN

强化学习游戏训练框架ASED

可达性约束强化学习

AI技术领域课程--强化学习

探索Python中的强化学习：DQN

MindSpore AC算法强化学习

【AI理论】台湾大学李宏毅深度强化学习笔记(49PPT)

基于强化学习的推荐研究综述

【MindSpore易点通】强化学习系列之强化学习的基本求解方法(二)

强化学习基本模型和原理

以大模型的角度看待强化学习

使用Python实现强化学习算法

ModelArts使用强化学习内置环境

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线