搜索_华为云

内容选择

内容分类

学堂博客论坛开发服务开发工具直播视频用户

时间

一周一个月三个月

内容选择

全部

内容选择

内容分类

学堂
博客
论坛
开发服务
开发工具
直播
视频
用户

时间

一周
一个月
三个月

OpenAI Gym 中级教程——深入强化学习算法

中级教程：深入强化学习算法 OpenAI Gym 是一个用于开发和比较强化学习算法的工具包，提供了多个环境，包括经典的控制问题和 Atari 游戏。本篇博客将深入介绍 OpenAI Gym 中的强化学习算法，包括深度 Q 网络（Deep Q Network, DQN）和深度确定性策略梯度（Deep

开发者 > 博客

作者： Echo_Wish

发表时间： 2024-01-29 08:45:50

14

0
[ 转载 ] 六节课入门「深度强化学习」，UC伯克利教授Pieter Abbeel开课了

将传统强化学习与深度神经网络结合的深度强化学习，一直以来被视为更接近人类思维方式的人工智能方法。深度学习具备强感知能力但缺乏一定的决策能力，强化学习具备决策能力但对感知问题束手无策，因此将两者结合起来可以达到优势互补的效果，为复杂系统的感知决策问题提供了解决思路。想要入门深度强化

开发者 > 其他

作者： MKT 黄不正

4111

5
不需要训练数据的强化学习RL
不需要训练数据的强化学习RL

图像作为训练数据。强化学习与之不同，不需要训练数据，而是设置一个环境。类似于动物处在自然环境中，强化学习需要不断与环境交互，并从中学习。强化学习研究常用的环境是各种各样的游戏。强化学习方法简单、有效且通用，在许多游戏环境中都取得了超越人类的决策水平，被 DeepMind 认为是实现通用人工智能的一种重要途径。

开发者 > 其他

作者：黄生

1624

4
强化学习第一课复习
强化学习第一课复习

智能体不能得到即时的反馈，所以很困难。 1-3 强化学习的基本特征有哪些？（1）强化学习会试错探索，它通过探索环境来获取对环境的理解。（2）强化学习智能体会从环境里面获得延迟的奖励。（3）在强化学习的训练过程中，时间非常重要。因为我们得到的是有时间关联的数据（sequential

开发者 > 博客

作者： livingbody

发表时间： 2022-11-15 08:36:03

186

0
探索Python中的强化学习：SARSA
探索Python中的强化学习：SARSA

强化学习是一种机器学习方法，用于训练智能体（agent）在与环境的交互中学习如何做出最优决策。SARSA是强化学习中的一种基于状态-行动-奖励-下一个状态的方法，用于学习最优策略。本文将详细介绍SARSA的原理、实现方式以及如何在Python中应用。什么是SARSA？ SAR

开发者 > 博客

作者： Echo_Wish

发表时间： 2024-03-31 13:21:07

3

0
强化学习组合优化综述论文
强化学习组合优化综述论文

工构造的启发式算法，这些启发式算法能够依次地构造解决方案。这种启发式方法是由领域专家设计的，且一般由于问题的困难性，这种方法不是最佳的。强化学习（RL）提出了一种很好的选择，使用监督或自我监督的方式训练 agent 来自动搜索这些启发式方法。在这篇调研中，我们探索了将 RL 框架

开发者 > 其他

作者：可爱又积极

10371

10
【ICML2021】密度约束强化学习
【ICML2021】密度约束强化学习

Fanhttps://www.zhuanzhi.ai/paper/4fa1ffa9d790da75a55a7f6e0aef8821我们从一个新的角度研究约束强化学习(CRL)，通过直接设置状态密度函数的约束，而不是以往研究中考虑的值函数。状态密度具有清晰的物理和数学解释，并能够表达各种各样的约束，如

开发者 > 其他

作者：可爱又积极

422

1
OpenAI Gym 中级教程——强化学习实践项目

Python OpenAI Gym 中级教程：强化学习实践项目在本篇博客中，我们将通过一个实际项目来演示如何在 OpenAI Gym 中应用强化学习算法。我们选择一个简单而经典的问题：CartPole，这是一个控制小车平衡杆的问题。我们将使用深度 Q 网络（DQN）算法来解决这个问题。

开发者 > 博客

作者： Echo_Wish

发表时间： 2024-02-01 09:12:19

67

0
强化学习入门-第一课【笔记】

1.3 强化学习的历史强化学习是有一定的历史的，早期的强化学习，我们称其为标准强化学习。最近业界把强化学习与深度学习结合起来，就形成了深度强化学习（deep reinforcemet learning），因此，深度强化学习 = 深度学习 + 强化学习。我们可将标准强化学习和深度强

开发者 > 博客

作者： livingbody

发表时间： 2022-11-14 11:02:35

187

0
强化学习算法中Q-learning
强化学习算法中Q-learning

强化学习是一种机器学习方法，用于训练智能体在与环境交互的过程中学习最佳行动策略。Q-learning是强化学习中的一种基于值函数的算法，用于解决马尔科夫决策问题。 Q-learning的核心思想是通过学习一个状态-动作值函数（Q函数），来指导智能体在环境中选择最佳的行动。Q函数

开发者 > 博客

作者：皮牙子抓饭

发表时间： 2023-08-29 09:12:09

5

0
AI市场强化学习预置算法实践----使用强化学习训练智能体玩转Atari小游戏（2）

在上一篇实践教程中，我们结合ModelArts平台的最佳实践文档，使用AI市场的强化学习预置算法，完成了玩Atari小游戏Breakout的智能体的训练。训练好的模型及配置文件在自己的OBS文件夹内，具体要怎么“欣赏”我们训练的智能体玩游戏呢？实际上，这是一个推理并可视化的过程。

开发者 > 博客

作者：灰灰爱喝粥

发表时间： 2020-09-12 18:33:02

8575

0
传统强化学习的3种方法
传统强化学习的3种方法

价值的强化学习方法。基于策略的强化学习方法会摒弃价值函数，直接优化主体的策略函数，将主体的每一状态和当前状态下的最佳行为建立联系，ActorGCritic、A3C和DDPG等就是基于策略的强化学习方法。策略也可以分为确定性策略和随机性策略。基于模型的强化学习方法则是要对环境进行建

开发者 > 其他

作者：黄生

11

0
通用人工智能，用强化学习吗？

通用人工智能，用强化学习吗？人们把具备与人类同等智慧、或超越人类的人工智能称为通用人工智能（AGI）。这种系统被认为可以执行人类能够执行的任何智能任务，它是人工智能领域主要研究目标之一。强化学习大佬 David Silver、Richard Sutton 等人提出将智能及其相关

开发者 > 其他

作者： QGS

631

0
鲁棒强化学习的策略梯度法
鲁棒强化学习的策略梯度法

本文提出了一种具有全局最优保证和复杂度分析的策略梯度法，用于模型失配情况下的鲁棒强化学习。鲁棒强化学习是学习一种鲁棒的策略来模拟模拟环境和真实环境之间的不匹配。我们首先建立了鲁棒策略梯度，它适用于任何可微参数策略类。我们证明了所提出的稳健策略梯度方法在直接策略参数化下渐近收敛于全

开发者 > 其他

作者：可爱又积极

242

1
油藏模拟中的强化学习策略优化

在本文中，我们将探讨如何利用强化学习优化油藏模拟的策略。首先，我们会介绍强化学习的基本原理和核心概念，包括状态、动作、奖励和价值函数等。然后，我们将讨论如何将油藏模拟问题建模为强化学习任务，并设计相应的状态表示、动作空间和奖励函数。接下来，我们将详细讨论强化学习算法在油藏模拟中的应用

开发者 > 博客

作者：皮牙子抓饭

发表时间： 2023-06-30 21:06:57

8

0
一文详解强化学习（Reinforcement Learning）

Process, MDP），这是强化学习最核心的数学模型。为什么强化学习重要？实用性与广泛应用强化学习的重要性首先体现在其广泛的应用价值。从自动驾驶、游戏AI、到量化交易、工业自动化，以及近年来在自然语言处理、推荐系统等方面的突破，强化学习都发挥着不可或缺的角色。自适应与优化

开发者 > 博客

作者： TechLead

发表时间： 2023-11-15 17:54:45

20

0
《Spark机器学习进阶实战》——1.3.4　强化学习

1.3.4　强化学习强化学习是智能系统从环境到行为映射的学习，以使强化信号函数值最大。由于外部环境提供的信息很少，强化学习系统必须靠自身的经历进行学习。强化学习的目标是学习从环境状态到行为的映射，使得智能体选择的行为能够获得环境的最大奖赏，使得外部环境对学习系统在某种意义下的评价

开发者 > 博客

作者：华章计算机

发表时间： 2019-05-31 00:04:32

6341

0
【王喆-推荐系统】模型篇-(task9)强化学习推荐模型DRN

更高效，能根据用户的实时奖励学到新知识，做出最实时的反馈。文章目录学习总结一、强化学习基本概念1.1 强化学习框架的六要素二、强化学习推荐系统框架三、深度强化学习推荐模型 DRN四、DRN 的学习过程4.1 离线部分4.2 在线部分五、DRN 的在线学习方法：竞争梯度下降算法5

开发者 > 博客

作者：野猪佩奇996

发表时间： 2022-01-22 17:44:21

1787

0
《强化学习：原理与Python实现》 —1.4.2　按算法分类

Learning，DRL）算法和非深度强化学习算法。如果强化学习算法用到了深度学习，则这种强化学习可以称为深度强化学习算法。值得一提的是，强化学习和深度学习是两个独立的概念。一个学习算法是不是强化学习和它是不是深度学习算法是相互独立的（见图1-7）。如果一个算法解决了强化学习的问题，这个算法就是

开发者 > 博客

作者：华章计算机

发表时间： 2019-11-12 20:30:44

4701

0
强化学习（三）用动态规划（DP）求解

　　在强化学习（二）马尔科夫决策过程(MDP)中，我们讨论了用马尔科夫假设来简化强化学习模型的复杂度，这一篇我们在马尔科夫假设和贝尔曼方程的基础上讨论使用动态规划(Dynamic Programming, DP)来求解强化学习的问题。　　　　动态规划这

开发者 > 博客

作者：格图洛书

发表时间： 2021-12-29 15:35:19

267

0

总条数： 10000

上一页
1
...
6
7
8
...
500
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

OpenAI Gym 中级教程——深入强化学习算法

[ 转载 ] 六节课入门「深度强化学习」，UC伯克利教授Pieter Abbeel开课了

不需要训练数据的强化学习RL

强化学习第一课复习

探索Python中的强化学习：SARSA

强化学习组合优化综述论文

【ICML2021】密度约束强化学习

OpenAI Gym 中级教程——强化学习实践项目

强化学习入门-第一课【笔记】

强化学习算法中Q-learning

AI市场强化学习预置算法实践----使用强化学习训练智能体玩转Atari小游戏（2）

传统强化学习的3种方法

通用人工智能，用强化学习吗？

鲁棒强化学习的策略梯度法

油藏模拟中的强化学习策略优化

一文详解强化学习（Reinforcement Learning）

《Spark机器学习进阶实战》——1.3.4　强化学习

【王喆-推荐系统】模型篇-(task9)强化学习推荐模型DRN

《强化学习：原理与Python实现》 —1.4.2　按算法分类

强化学习（三）用动态规划（DP）求解

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线