搜索_华为云

内容选择

内容分类

学堂博客论坛开发服务开发工具直播视频用户

时间

一周一个月三个月

内容选择

全部

内容选择

内容分类

学堂
博客
论坛
开发服务
开发工具
直播
视频
用户

时间

一周
一个月
三个月

强化学习(十七) 基于模型的强化学习与Dyna算法框架

　在前面我们讨论了基于价值的强化学习(Value Based RL)和基于策略的强化学习模型(Policy Based RL)，本篇我们讨论最后一种强化学习流派，基于模型的强化学习(Model Based RL)，以及基于模型的强化学习算法框架Dyna。　　　　本篇主要参考了UCL强化学习课程的第8讲和Dyna-2的论文。

开发者 > 博客

作者：格图洛书

发表时间： 2021-12-29 17:03:57

349

0
OpenAI Gym 高级教程——深度强化学习库的高级用法

OpenAI Gym 高级教程：深度强化学习库的高级用法在本篇博客中，我们将深入探讨 OpenAI Gym 高级教程，重点介绍深度强化学习库的高级用法。我们将使用 TensorFlow 和 Stable Baselines3 这两个流行的库来实现深度强化学习算法，以及 Gym 提供的环境。

开发者 > 博客

作者： Echo_Wish

发表时间： 2024-02-03 22:55:46

49

0
强化学习：基于蒙特卡洛树和策略价值网络的深度强化学习五子棋

实现了基于蒙特卡洛树和策略价值网络的深度强化学习五子棋(含码源) 特点自我对弈详细注释流程简单代码结构 net：策略价值网络实现 mcts：蒙特卡洛树实现 server：前端界面代码 legacy：废弃代码 docs：其他文件 utils：工具代码 network.py：移植过来的网络结构代码

开发者 > 博客

作者：汀丶

发表时间： 2023-07-15 23:19:22

9

0
浅谈强化学习
浅谈强化学习

RL）和被动强化学习（passive RL）。强化学习的变体包括逆向强化学习、阶层强化学习和部分可观测系统的强化学习。求解强化学习问题所使用的算法可分为策略搜索算法和值函数（value function）算法两类。深度学习可以在强化学习中得到使用，形成深度强化学习。强化学习理论受到行为

开发者 > 其他

作者： QGS

70

1
【强化学习】元强化学习（Meta Reinforcement Learning）

3.元强化学习的应用 4.元强化学习的优势和挑战 5.总结 [Python] 元学习pytorch实现 [Results] 运行结果 [Notice] 代码说明 1.元强化学习（Meta Reinforcement Learning, MRL）元强化学习是一种

开发者 > 博客

作者：不去幼儿园

发表时间： 2024-12-02 20:41:24

46

0
强化学习中的深度卷积神经网络设计与应用实例

据方面提供了强大工具。本文将探讨强化学习中深度卷积神经网络的设计原则及其在不同应用场景中的实例。 II. 深度卷积神经网络在强化学习中的角色 A. 提取高维度输入的特征在强化学习中，智能体通常需要处理高维度的输入，例如视频帧或图像。DCNNs能够自动提取这些高维度输入中的重

开发者 > 博客

作者： Y-StarryDreamer

发表时间： 2024-05-20 14:36:20

5

0
MATLAB深度学习工具箱汇总
MATLAB深度学习工具箱汇总

Matlab一直以来都有着神经网络工具箱，而从2016的版本开始，提供深度神经网络的相关工具。而到现如今2017的版本，功能更加完善，因此本人在此总结Matlab 2017所包含的深度学习的功能。如今版本的Matlab已经包含的如下功能： Ø&n

开发者 > 博客

作者：格图洛书

发表时间： 2021-12-29 16:48:32

1073

0
强化学习
强化学习

过程中自主学习，这称为强化学习（reinforcement learning）。强化学习和有“教师”在身边教的“监督学习”有所不同。强化学习的基本框架是，代理（Agent）根据环境选择行动，然后通过这个行动改变环境。根据环境的变化，代理获得某种报酬。强化学习的目的是决定代理的行动

开发者 > 其他

作者： G-washington

1682

1
强化学习介绍
强化学习介绍

强化学习 (Reinforcement Learning) 是一个机器学习大家族中的分支, 由于近些年来的技术突破, 和深度学习 (Deep Learning) 的整合, 使得强化学习有了进一步的运用. 比如让计算机学着玩游戏, AlphaGo 挑战世界围棋高手, 都是强化学习在行的事

开发者 > 其他

作者：角动量

1760

2
【云驻共创】机器学习、深度学习和强化学习的关系和区别是什么

境。强化学习的常见模型是标准的马尔可夫决策过程。按给定条件，强化学习可分为基于模式的强化学习和无模式强化学习。强化学习的变体包括逆向强化学习、阶层强化学习和部分可观测系统的强化学习。求解强化学习问题所使用的算法可分为策略搜索算法和值函数算法两类。深度学习模型可以在强化学习中得到使用，形成深度强化学习。

开发者 > 博客

作者：龙腾九州

发表时间： 2022-04-29 02:13:25

1497

0
《强化学习：原理与Python实现》 —1.5　如何学习强化学习

如AlphaGo使用的算法，都是深度强化学习算法。本书第2章介绍Markov决策过程，第3章到第9章介绍Markov决策问题的求解，其中也涵盖了大多经典的深度强化学习算法。在强化学习的学习和实际应用中，难免需要通过编程来实现强化学习算法。强化学习算法需要运行在环境中。Python

开发者 > 博客

作者：华章计算机

发表时间： 2019-11-12 20:33:04

3142

0
【论文分享】基于深度强化学习的无人机数据采集和路径规划研究

传感器网络数据采集时的路径规划问题进行了研究，同时满足无人机自身因电池容量有限而产生的充电需求。具体地，利用时间抽象分层强化学习思想，基于离散动作深度强化学习架构，提出了一种新颖的option-DQN（option-deep Q-learning）算法，实现了高效的无人机数据采集

开发者 > 其他

作者：乔天伊

461

2
《深度剖析：Q-learning为何被归为无模型强化学习算法》

在强化学习的广袤领域中，Q-learning作为一种经典算法，占据着举足轻重的地位。它被明确归类为无模型的强化学习算法，这背后蕴含着深刻的技术原理和独特的设计思路。今天，就让我们一同深入探究其中的奥秘。强化学习算法的两大阵营：有模型与无模型在探讨Q-learning为何属于无

开发者 > 博客

作者：程序员阿伟

发表时间： 2025-01-29 17:14:31

73

0
强化学习是什么？强化学习之基于人类反馈的强化学习及其应用（1）

反馈进行学习。强化学习方法更适合生成式任务，也是大语言模型构建中必不可少的关键步骤。本章将介绍基于类人反馈的强化学习基础概念、奖励模型以及近端策略优化方法，并在此基础上介绍面向大语言模型强化学习的PPO-Max 框架实践。 1.1 基于人类反馈的强化学习强化学习（Reinforcement

开发者 > 博客

作者：码上开花_Lancer

发表时间： 2024-11-14 11:50:33

726

0
强化学习浅谈
强化学习浅谈

又学习策略。4. 强化学习的应用：游戏领域：AlphaGo和AlphaZero等强化学习在围棋、象棋等游戏中的成功应用，以及OpenAI的Dota 2项目。机器人控制：强化学习在机器人路径规划、操作控制等方面的应用，如机械臂控制、自主导航等。自动驾驶：强化学习可以用于自动驾驶系统

开发者 > 其他

作者：运气男孩

47

1
强化学习案例
强化学习案例

请问有大佬在modelarts上面进行强化学习训练和部署吗，希望能够学习交流一下。目前本小白在notebook上进行强化学习训练解决办法需要apt-get安装，但在modelarts的notebook中无apt-get安装的权限，请问各位大佬有什么好的方式去配置强化学习环境吗。如果能有案例学习将不胜感激。

开发者 > 其他

作者：文新小白

1576

3
基于Qlearning强化学习的路径规划算法matlab仿真

算法运行软件版本 MATLAB2022A     3.算法理论概述         路径规划在机器人、自动驾驶等领域中具有重要应用。Q-learning是一种经典的强化学习算法，可以用于解决

开发者 > 博客

作者：简简单单做算法

发表时间： 2023-10-10 23:27:00

68

0
通用人工智能（AGI）深度强化学习的范式突破与系统挑战

强化学习与深度学习融合架构在实现AGI进程中的关键作用。通过分析深度Q网络（DQN）到Transformer-based策略优化的演进路径，结合DeepMind AlphaFold 3与OpenAI GPT-4的混合训练范式，揭示多模态状态表征与元强化学习机制的协同效应。研究显示

开发者 > 博客

作者： 8181暴风雪

发表时间： 2025-03-26 09:30:32

0

0
强化学习应用
强化学习应用

强化学习应用为了更好地理解强化学习的组成部分，让我们考虑几个例子。Chess：这里的环境是棋盘，环境的状态是棋子在棋盘上的位置；RL 代理可以是参与者之一（或者，两个参与者都可以是 RL 代理，在同一环境中分别训练）；一盘棋局则是一集。这一集从初始状态开始，黑板和白板的边缘排列着

开发者 > 其他

作者： QGS

1284

10
一文读懂人工智能、机器学习、深度学习、强化学习的关系（必看）

数据预测。 5、人工智能强化学习（<<< 点开立即免费看）随着深度学习技术的流行，深度学习中的一些主流技术（如深度卷积神经网络、序列建模、记忆管理等）与强化学习在许多应用场景上出现了结合点，例如使用深度卷积网络来获取游戏画面的回放，然后结合强化学习本身的机制来训练出可以自己

开发者 > 博客

作者：牛油果

发表时间： 2019-02-15 10:44:46

12316

1

总条数： 10000

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

0/200

提交反馈取消