搜索_华为云

已找到以下 10000 条记录

强化学习(十一) Prioritized Replay DQN

　　在强化学习（十）Double DQN (DDQN)中，我们讲到了DDQN使用两个Q网络，用当前Q网络计算最大Q值对应的动作，用目标Q网络计算这个最大动作对应的目标Q值，进而消除贪婪法带来的偏差。今天我们在DDQN的基础上，对经验回放部

开发者 > 博客

作者：格图洛书

发表时间： 2021-12-29 17:49:11

522

0
浅谈强化学习网络模型设计
浅谈强化学习网络模型设计

立信号以及如何通过学习来修正不同状态－动作对的值。三，如何根据这些值来选择适合的动作。用强化学习方法研究未知环境下的机器人导航，由于环境的复杂性和不确定性，这些问题变得更复杂。标准的强化学习，智能体作为学习系统，获取外部环境的当前状态信息s，对环境采取试探行为u，并获取环境反馈的对此动作的评价r和新的环境状态

开发者 > 其他

作者： QGS

29

4
【论文分享】基于深度强化学习的无人机自主部署及能效优化策略

无人机需要根据复杂动态场景进行最优覆盖部署，同时要减少部署过程中的路径损耗和能量消耗。基于深度强化学习提出了无人机自主部署和能效优化策略，建立无人机覆盖状态集合，以能效作为奖励函数，利用深度神经网络和Q-learning引导无人机自主决策，部署最佳位置。仿真结果表明，该方法的部署

开发者 > 其他

作者：乔天伊

398

19
强化学习AI的未来发展
强化学习AI的未来发展

随着人工智能技术的不断发展，强化学习成为了一个备受关注的热门领域。作为一项能够让机器模仿人类决策过程的技术，强化学习在日常生活中得到了广泛的应用。在这篇文章中，我们将探讨强化学习AI的未来发展，在未来的数年中，我们有望看到它成为AI技术的主要引擎之一。强化学习是一种让机器通过学习来达

开发者 > 博客

作者：赵KK日常技术记录

发表时间： 2023-06-25 18:01:06

12

0
强化学习实战-datawhale组队学习

先把代码clone一下。然后，就大概了解了一下，创建工作环境，展示变量之类。然后就是眼花缭乱的训练过程

开发者 > 博客

作者： irrational

发表时间： 2022-08-22 14:53:24

162

0
【AAAI2020】强化学习玩王者荣耀

Controlin MOBA Games with DeepReinforcement Learning 主要贡献提出了一个深度强化学习框架，从系统和算法的角度来解决这个问题。提出的算法包括几种新颖的策略，包括control dependency decoupling，action

开发者 > 博客

作者：小小谢先生

发表时间： 2022-04-15 18:04:28

572

0
浅谈强化学习基本模型和原理
浅谈强化学习基本模型和原理

强化学习是从动物学习、参数扰动自适应控制等理论发展而来，其基本原理是：如果Agent的某个行为策略导致环境正的奖赏(强化信号)，那么Agent以后产生这个行为策略的趋势便会加强。Agent的目标是在每个离散状态发现最优策略以使期望的折扣奖赏和最大。强化学习强化学习把学习看作试探评

开发者 > 其他

作者： QGS

36

2
分享IMPALA：大规模强化学习算法

论文名称：Scalable Distributed Deep-RL with Importance Weighted Actor-Learner Architectures作者：Lasse Espeholt / Hubert Soyer / Remi Munos / Karen Simonyan

开发者 > 其他

作者：初学者7000

1365

4
强化学习组合优化综述论文
强化学习组合优化综述论文

工构造的启发式算法，这些启发式算法能够依次地构造解决方案。这种启发式方法是由领域专家设计的，且一般由于问题的困难性，这种方法不是最佳的。强化学习（RL）提出了一种很好的选择，使用监督或自我监督的方式训练 agent 来自动搜索这些启发式方法。在这篇调研中，我们探索了将 RL 框架

开发者 > 其他

作者：可爱又积极

10373

10
【ICML2021】密度约束强化学习
【ICML2021】密度约束强化学习

Fanhttps://www.zhuanzhi.ai/paper/4fa1ffa9d790da75a55a7f6e0aef8821我们从一个新的角度研究约束强化学习(CRL)，通过直接设置状态密度函数的约束，而不是以往研究中考虑的值函数。状态密度具有清晰的物理和数学解释，并能够表达各种各样的约束，如

开发者 > 其他

作者：可爱又积极

422

1
强化学习(十三) 策略梯度(Policy Gradient)

Gradient)，它是Policy Based强化学习方法，基于策略来学习。　　　　本文参考了Sutton的强化学习书第13章和策略梯度的论文。 1. Value Based强化学习方法的不足　　　　DQN系列强化学习算法主要的问题主要有三点。　　　　第一点

开发者 > 博客

作者：格图洛书

发表时间： 2021-12-29 15:59:35

417

0
一文详解强化学习（Reinforcement Learning）

Process, MDP），这是强化学习最核心的数学模型。为什么强化学习重要？实用性与广泛应用强化学习的重要性首先体现在其广泛的应用价值。从自动驾驶、游戏AI、到量化交易、工业自动化，以及近年来在自然语言处理、推荐系统等方面的突破，强化学习都发挥着不可或缺的角色。自适应与优化

开发者 > 博客

作者： TechLead

发表时间： 2023-11-15 17:54:45

20

0
强化学习(十四) Actor-Critic
强化学习(十四) Actor-Critic

　在强化学习(十三) 策略梯度(Policy Gradient)中，我们讲到了基于策略(Policy Based)的强化学习方法的基本思路，并讨论了蒙特卡罗策略梯度reinforce算法。但是由于该算法需要完整的状态序列，同时单独对策略函数进行迭代更新，不太容易收敛。

开发者 > 博客

作者：格图洛书

发表时间： 2021-12-29 17:07:03

477

0
AI市场强化学习预置算法实践----使用强化学习训练智能体玩转Atari小游戏（1）

13年发表一篇工作，将深度学习运用到强化学习任务上。随着算法改进，DeepMind的研究者使用DQN（Deep Q Network）进行Atari游戏，有接近一半的游戏上，智能体水平都超过的了人类。本篇博客，就教你使用ModelArts的AI市场上强化学习预置算法，0代码训练一个

开发者 > 博客

作者：灰灰爱喝粥

发表时间： 2020-09-12 17:28:33

9191

0
强化学习基础-蒙特卡洛(Monte Carlo)

141592653589793 ``` ## 强化学习中的应用 ### 基础应用在深度学习和强化学习领域中，许多算法实际上使用了Monte-Carlo方法，并没有给它冠名。这些算法如此基础，我们经常会忽略它的存在。例如由于计算资源受限，深度学习把一个批次样本的梯度作为整体梯度的估计

开发者 > 其他

作者： chenweifeng

248

1
[ 转载 ] 六节课入门「深度强化学习」，UC伯克利教授Pieter Abbeel开课了

将传统强化学习与深度神经网络结合的深度强化学习，一直以来被视为更接近人类思维方式的人工智能方法。深度学习具备强感知能力但缺乏一定的决策能力，强化学习具备决策能力但对感知问题束手无策，因此将两者结合起来可以达到优势互补的效果，为复杂系统的感知决策问题提供了解决思路。想要入门深度强化

开发者 > 其他

作者： MKT 黄不正

4111

5
《强化学习：原理与Python实现》 —3.4　动态规划

3.4　动态规划3.2.1节介绍的策略评估迭代算法和3.3节介绍的价值迭代算法都应用了动态规划这一方法。本节将介绍动态规划的思想，并且指出动态规划的缺点和可能的改进方法。3.4.1　从动态规划看迭代算法动态规划（Dynamic Programming，DP）是一种迭代求解方法，它

开发者 > 博客

作者：华章计算机

发表时间： 2019-11-13 12:22:26

3037

0
【RL】强化学习入门：从基础到应用

本篇文章是博主强化学习RL领域学习时，用于个人学习、研究或者欣赏使用，并基于博主对相关等领域的一些理解而记录的学习摘录和笔记，若有不当和侵权之处，指出后将会立即改正，还望谅解。文章强化学习：强化学习（1）---《【RL】强化学习入门：从基础到应用》【RL】强化学习入门：从基础到应用

开发者 > 博客

作者：不去幼儿园

发表时间： 2024-12-02 19:08:54

7

0
强化学习第一课复习
强化学习第一课复习

智能体不能得到即时的反馈，所以很困难。 1-3 强化学习的基本特征有哪些？（1）强化学习会试错探索，它通过探索环境来获取对环境的理解。（2）强化学习智能体会从环境里面获得延迟的奖励。（3）在强化学习的训练过程中，时间非常重要。因为我们得到的是有时间关联的数据（sequential

开发者 > 博客

作者： livingbody

发表时间： 2022-11-15 08:36:03

186

0
不需要训练数据的强化学习RL
不需要训练数据的强化学习RL

图像作为训练数据。强化学习与之不同，不需要训练数据，而是设置一个环境。类似于动物处在自然环境中，强化学习需要不断与环境交互，并从中学习。强化学习研究常用的环境是各种各样的游戏。强化学习方法简单、有效且通用，在许多游戏环境中都取得了超越人类的决策水平，被 DeepMind 认为是实现通用人工智能的一种重要途径。

开发者 > 其他

作者：黄生

1625

4

总条数： 10000

上一页
1
...
6
7
8
...
500
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

强化学习(十一) Prioritized Replay DQN

浅谈强化学习网络模型设计

【论文分享】基于深度强化学习的无人机自主部署及能效优化策略

强化学习AI的未来发展

强化学习实战-datawhale组队学习

【AAAI2020】强化学习玩王者荣耀

浅谈强化学习基本模型和原理

分享IMPALA：大规模强化学习算法

强化学习组合优化综述论文

【ICML2021】密度约束强化学习

强化学习(十三) 策略梯度(Policy Gradient)

一文详解强化学习（Reinforcement Learning）

强化学习(十四) Actor-Critic

AI市场强化学习预置算法实践----使用强化学习训练智能体玩转Atari小游戏（1）

强化学习基础-蒙特卡洛(Monte Carlo)

[ 转载 ] 六节课入门「深度强化学习」，UC伯克利教授Pieter Abbeel开课了

《强化学习：原理与Python实现》 —3.4　动态规划

【RL】强化学习入门：从基础到应用

强化学习第一课复习

不需要训练数据的强化学习RL

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线