搜索_华为云

已找到以下 10000 条记录

使用强化学习内置环境
使用强化学习内置环境

05/10/214611s75kapmgyvyjhb7n.png) #### 进入AI Gallery订阅强化学习算法 ModelArts预置的强化学习算法（名为“强化学习预置算法”）发布在AI Gallery中。您可以前往AI Gallery，订阅此模型，然后同步至ModelArts中。

开发者 > 其他

作者：运气男孩

1566

3
使用强化学习内置环境
使用强化学习内置环境

05/10/214611s75kapmgyvyjhb7n.png) #### 进入AI Gallery订阅强化学习算法 ModelArts预置的强化学习算法（名为“强化学习预置算法”）发布在AI Gallery中。您可以前往AI Gallery，订阅此模型，然后同步至ModelArts中。

开发者 > 其他

作者：运气男孩

925

1
【干货分享】强化学习入门之旅

望在这篇文章中为读者呈现出强化学习的真实面貌，让我们明白什么是强化学习能做的而且能出色完成的，而哪些又仅仅是停留在纸面上的假设而已。同时作者还认为机器学习中的一些重要问题将可以通过强化学习的角度予以解决。</align><align=left> 强化学习令人不解的原因主要在于它需

开发者 > 其他

作者：小圆子

13983

3
《深度剖析：Q-learning为何被归为无模型强化学习算法》

在强化学习的广袤领域中，Q-learning作为一种经典算法，占据着举足轻重的地位。它被明确归类为无模型的强化学习算法，这背后蕴含着深刻的技术原理和独特的设计思路。今天，就让我们一同深入探究其中的奥秘。强化学习算法的两大阵营：有模型与无模型在探讨Q-learning为何属于无

开发者 > 博客

作者：程序员阿伟

发表时间： 2025-01-29 17:14:31

73

0
强化学习相关问题
强化学习相关问题

强化学习使用帮助 https://bbs.huaweicloud.com/blogs/197300 https://bbs.huaweicloud.com/blogs/197302 强化学习预置算法 https://support.huaweicloud.com/bestpra

开发者 > 博客

作者：星月菩提

发表时间： 2021-01-15 11:27:32

4979

0
强化学习（一）模型基础
强化学习（一）模型基础

　从今天开始整理强化学习领域的知识，主要参考的资料是Sutton的强化学习书和UCL强化学习的课程。这个系列大概准备写10到20篇，希望写完后自己的强化学习碎片化知识可以得到融会贯通，也希望可以帮到更多的人，毕竟目前系统的讲解强化学习的中文资料不太多。　　　　第一篇会从强化学习的基本概

开发者 > 博客

作者：格图洛书

发表时间： 2021-12-29 15:34:17

473

0
强化学习算法中SARSA
强化学习算法中SARSA

这使得SARSA算法更适合于处理连续决策问题，如强化学习中的马尔可夫决策过程（Markov Decision Process）。总之，SARSA是一种基于状态-动作-奖励-下一个状态-下一个动作的模式进行学习和决策的强化学习算法。它通过差分更新的方式逐步调整状态-动作对的价值

开发者 > 博客

作者：皮牙子抓饭

发表时间： 2023-08-29 09:12:54

5

0
学习《强化学习的落地实践》有感

今天观看了郝建业老师的《强化学习落地实践》的报告直播，颇有收获。首先，郝建业老师对强化学习的基本知识、发展历史进行了讲解，展示了深度学习与强化学习的深层差异。随后，老师讲解了目前的深度强化学习存在的问题：学习效率底下，所需资源庞大。相比之下，人类不是从头学习，而是从过往的知识中

开发者 > 博客

作者： Thund1r

发表时间： 2020-03-13 18:05:39

10540

0
强化学习心得3
强化学习心得3

从SARSA到Q-learning对于智能体agent来说，要做的就是在环境中不断尝试而学习得到一个“策略”π，根据这个策略，在状态x下就能得知要执行的动作a = π(x)。图中的r即为状态动作的价值。通常我们使用Q表格来储存每一个状态下选择某一种动作所带来的价值。如上图所示通常

开发者 > 其他

作者： xia1111

1147

5
强化学习心得4
强化学习心得4

从SARSA到Q-learning接下来介绍SARSA与Q-learning算法，算法步骤如下所示：引用《introduction to reinforcement learning》一书中的伪代码如下所示：两者的区别在于而Sarsa在每一步中以e-greedy的策略选取下一个状

开发者 > 其他

作者： xia1111

850

3
【RL】元强化学习（MRL）VS 基于迁移学习的强化学习（RL-TL）

基于迁移学习的强化学习（RL-TL）》元强化学习（MRL）VS 基于迁移学习的强化学习（RL-TL）目录 1.元强化学习（Meta Reinforcement Learning）与基于迁移学习的强化学习之间的区别 2.具体解释 3.两者的应用场景 4.总结 5.元学习（Meta

开发者 > 博客

作者：不去幼儿园

发表时间： 2024-12-03 08:23:44

49

0
easyRL学习笔记：强化学习基础
easyRL学习笔记：强化学习基础

习是异策略的每次算maxQ，第六章深度Q网络是只属于异策略部分的一个深度算法。第六章刚开始的价值函数近似只有Q函数近似，是不是就是说策略迭代时候从Q表格找maxQ用近似函数代替，价值迭代时候不需要近似V函数，然后这个近似Q和不近似的V再用深度网络训练。 DQN里还有目标网络，是

开发者 > 博客

作者： irrational

发表时间： 2022-08-30 16:46:05

288

0
强化学习-云机器人
强化学习-云机器人

强化学习是智能体（Agent）以“试错”的方式进行学习，通过与环境进行交互获得的奖赏指导行为，目标是使智能体获得最大的奖赏，强化学习不同于连接主义学习中的监督学习，主要表现在强化信号上，强化学习中由环境提供的强化信号是对产生动作的好坏作一种评价(通常为标量信号)，而不是告诉强化学

开发者 > 其他

作者： QGS

841

3
强化学习的使用范围是什么？
强化学习的使用范围是什么？

尽管我们在机器学习社区中广泛使用强化学习，但强化学习不仅仅是一个人工智能术语，它是许多领域中的一个中心思想，如下图（强化学习的多个方面，Many Faces of Reinforcement Learning）所示。事实上，许多这些领域面临着与机器学习相同的问题：如何优化决策以实现最佳结果，这就是决策科学

开发者 > 其他

作者：极客潇

1489

2
强化学习（三）用动态规划（DP）求解

　　在强化学习（二）马尔科夫决策过程(MDP)中，我们讨论了用马尔科夫假设来简化强化学习模型的复杂度，这一篇我们在马尔科夫假设和贝尔曼方程的基础上讨论使用动态规划(Dynamic Programming, DP)来求解强化学习的问题。　　　　动态规划这

开发者 > 博客

作者：格图洛书

发表时间： 2021-12-29 15:35:19

267

0
强化学习(十二) Dueling DQN
强化学习(十二) Dueling DQN

　　在强化学习(十一) Prioritized Replay DQN中，我们讨论了对DQN的经验回放池按权重采样来优化DQN算法的方法，本文讨论另一种优化方法，Dueling DQN。本章内容主要参考了ICML 2016的deep RL tutorial和Dueling

开发者 > 博客

作者：格图洛书

发表时间： 2021-12-29 15:24:28

449

0
强化学习游戏训练框架ASED
强化学习游戏训练框架ASED

json说明env_config.py说明game_interface.py说明Benchmark实验数据5. 更多信息强化学习入门课程案例使用强化学习AlphaZero算法训练中国象棋AI与中国象棋AI对战！使用强化学习AlphaZero算法训练五子棋AI使用DQN算法玩2048游戏使用PPO算法玩超级马里奥

开发者 > 其他

作者：开发者创新中心小广播

690

0
可达性约束强化学习
可达性约束强化学习

约束强化学习(CRL)最近引起了人们的极大兴趣，因为满足安全约束对现实世界的问题至关重要。然而，现有的CRL方法对折现累积成本的约束通常缺乏严格的定义和安全性保证。另一方面，在安全控制研究中，安全被定义为持续满足一定的状态约束。这种持久安全只在状态空间的一个子集上是可能的，这个子

开发者 > 其他

作者：可爱又积极

536

2
【AI理论】台湾大学李宏毅深度强化学习笔记(49PPT)

是监督式方法让机器去学习，就会变成你教授5-5后，第二手教机器下3-3，一步一步的带下法。但强化学习不一样，是到棋局结束才有奖励。阿法狗的算法则是，监督式先学习许多的棋谱，然后才用强化学习去探索更多棋谱跟走法。我们用语音机器人举例。一开始的监督则是从你一句我一句训练，然后根据动作

开发者 > 博客

作者： HWCloudAI

发表时间： 2019-08-06 20:18:08

5767

0
探索Python中的强化学习：DQN
探索Python中的强化学习：DQN

强化学习是一种机器学习方法，用于训练智能体（agent）在与环境的交互中学习如何做出最优决策。DQN（Deep Q-Network）是强化学习中的一种基于深度神经网络的方法，用于学习最优策略。本文将详细介绍DQN的原理、实现方式以及如何在Python中应用。什么是DQN？ D

开发者 > 博客

作者： Echo_Wish

发表时间： 2024-04-01 08:55:17

103

0

总条数： 10000

上一页
1
...
4
5
6
...
500
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

使用强化学习内置环境

使用强化学习内置环境

【干货分享】强化学习入门之旅

《深度剖析：Q-learning为何被归为无模型强化学习算法》

强化学习相关问题

强化学习（一）模型基础

强化学习算法中SARSA

学习《强化学习的落地实践》有感

强化学习心得3

强化学习心得4

【RL】元强化学习（MRL）VS 基于迁移学习的强化学习（RL-TL）

easyRL学习笔记：强化学习基础

强化学习-云机器人

强化学习的使用范围是什么？

强化学习（三）用动态规划（DP）求解

强化学习(十二) Dueling DQN

强化学习游戏训练框架ASED

可达性约束强化学习

【AI理论】台湾大学李宏毅深度强化学习笔记(49PPT)

探索Python中的强化学习：DQN

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线