搜索_华为云

内容选择

内容分类

学堂博客论坛开发服务开发工具直播视频用户

时间

一周一个月三个月

内容选择

全部

内容选择

内容分类

学堂
博客
论坛
开发服务
开发工具
直播
视频
用户

时间

一周
一个月
三个月

浅谈强化学习网络模型设计
浅谈强化学习网络模型设计

立信号以及如何通过学习来修正不同状态－动作对的值。三，如何根据这些值来选择适合的动作。用强化学习方法研究未知环境下的机器人导航，由于环境的复杂性和不确定性，这些问题变得更复杂。标准的强化学习，智能体作为学习系统，获取外部环境的当前状态信息s，对环境采取试探行为u，并获取环境反馈的对此动作的评价r和新的环境状态

开发者 > 其他

作者： QGS

27

4
【话题讨论】强化学习的应用
【话题讨论】强化学习的应用

强化学习是一门逐渐兴起的学科，与传统的机器学习不同，强化学习以“试错”的方式进行学习，通过与环境进行交互获得的奖赏指导行为，目标是使智能体获得最大的奖赏。在业界，强化学习还广泛应用于各类游戏AI的开发中。最为著名的便是alphago击败了围棋世界冠军李世石与柯洁。除此之外，例如在

开发者 > 其他

作者： xia1111

1749

10
强化学习的使用范围
强化学习的使用范围

一　　尽管我们在机器学习社区中广泛使用强化学习，但强化学习不仅仅是一个人工智能术语，它是许多领域中的一个中心思想，如下图（强化学习的多个方面，Many Faces of Reinforcement Learning）所示。二　　事实上，许多这些领域面临着与机器学习相同的问题：如何优化决策以实现最佳结果，这就是决策科学

开发者 > 其他

作者：我就是豆豆

388

0
基于Qlearning强化学习的路径规划算法matlab仿真

算法运行软件版本 MATLAB2022A     3.算法理论概述         路径规划在机器人、自动驾驶等领域中具有重要应用。Q-learning是一种经典的强化学习算法，可以用于解决

开发者 > 博客

作者：简简单单做算法

发表时间： 2023-10-10 23:27:00

68

0
强化学习AI的未来发展
强化学习AI的未来发展

随着人工智能技术的不断发展，强化学习成为了一个备受关注的热门领域。作为一项能够让机器模仿人类决策过程的技术，强化学习在日常生活中得到了广泛的应用。在这篇文章中，我们将探讨强化学习AI的未来发展，在未来的数年中，我们有望看到它成为AI技术的主要引擎之一。强化学习是一种让机器通过学习来达

开发者 > 博客

作者：赵KK日常技术记录

发表时间： 2023-06-25 18:01:06

12

0
强化学习(十五) A3C
强化学习(十五) A3C

　在强化学习(十四) Actor-Critic中，我们讨论了Actor-Critic的算法流程，但是由于普通的Actor-Critic算法难以收敛，需要一些其他的优化。而Asynchronous Advantage Actor-criti

开发者 > 博客

作者：格图洛书

发表时间： 2021-12-29 16:15:54

346

0
ModelAr使用强化学习内置环境
ModelAr使用强化学习内置环境

05/10/214611s75kapmgyvyjhb7n.png) #### 进入AI Gallery订阅强化学习算法 ModelArts预置的强化学习算法（名为“强化学习预置算法”）发布在AI Gallery中。您可以前往AI Gallery，订阅此模型，然后同步至ModelArts中。

开发者 > 其他

作者：运气男孩

527

1
强化学习（十）Double DQN (DDQN)
强化学习（十）Double DQN (DDQN)

　　　在强化学习（九）Deep Q-Learning进阶之Nature DQN中，我们讨论了Nature DQN的算法流程，它通过使用两个相同的神经网络，以解决数据样本和网络训练之前的相关性。但是还是有其他值得优化的点，文本就关注于Nature

开发者 > 博客

作者：格图洛书

发表时间： 2021-12-29 16:11:29

931

0
强化学习(十一) Prioritized Replay DQN

　　在强化学习（十）Double DQN (DDQN)中，我们讲到了DDQN使用两个Q网络，用当前Q网络计算最大Q值对应的动作，用目标Q网络计算这个最大动作对应的目标Q值，进而消除贪婪法带来的偏差。今天我们在DDQN的基础上，对经验回放部

开发者 > 博客

作者：格图洛书

发表时间： 2021-12-29 17:49:11

522

0
强化学习实战-datawhale组队学习

先把代码clone一下。然后，就大概了解了一下，创建工作环境，展示变量之类。然后就是眼花缭乱的训练过程

开发者 > 博客

作者： irrational

发表时间： 2022-08-22 14:53:24

162

0
浅谈强化学习基本模型和原理
浅谈强化学习基本模型和原理

强化学习是从动物学习、参数扰动自适应控制等理论发展而来，其基本原理是：如果Agent的某个行为策略导致环境正的奖赏(强化信号)，那么Agent以后产生这个行为策略的趋势便会加强。Agent的目标是在每个离散状态发现最优策略以使期望的折扣奖赏和最大。强化学习强化学习把学习看作试探评

开发者 > 其他

作者： QGS

35

2
MindSpore A2C 强化学习
MindSpore A2C 强化学习

今天我们使用A2C算法进行训练。 Advantage Actor-Critic (A2C)算法是一个强化学习算法，它结合了策略梯度（Actor）和价值函数（Critic）的方法。A2C算法在许多强化学习任务中表现优越，因为它能够利用价值函数来减少策略梯度的方差，同时直接优化策略。 A2C算法的核心思想

开发者 > 博客

作者： irrational

发表时间： 2024-06-04 11:00:14

18

0
分享IMPALA：大规模强化学习算法

论文名称：Scalable Distributed Deep-RL with Importance Weighted Actor-Learner Architectures作者：Lasse Espeholt / Hubert Soyer / Remi Munos / Karen Simonyan

开发者 > 其他

作者：初学者7000

1362

4
【AAAI2020】强化学习玩王者荣耀

Controlin MOBA Games with DeepReinforcement Learning 主要贡献提出了一个深度强化学习框架，从系统和算法的角度来解决这个问题。提出的算法包括几种新颖的策略，包括control dependency decoupling，action

开发者 > 博客

作者：小小谢先生

发表时间： 2022-04-15 18:04:28

572

0
强化学习论文阅读笔记：RODE
强化学习论文阅读笔记：RODE

文章来自ICLR 2021：RODE: Learning Roles to Decompose Multi-Agent Tasks 链接：https://arxiv.org/abs/2010.01523 代码：https://github.com/TonghanWang/RODE

开发者 > 其他

作者： yyy7124

1102

3
【论文分享】基于深度强化学习的无人机自主部署及能效优化策略

无人机需要根据复杂动态场景进行最优覆盖部署，同时要减少部署过程中的路径损耗和能量消耗。基于深度强化学习提出了无人机自主部署和能效优化策略，建立无人机覆盖状态集合，以能效作为奖励函数，利用深度神经网络和Q-learning引导无人机自主决策，部署最佳位置。仿真结果表明，该方法的部署

开发者 > 其他

作者：乔天伊

397

19
强化学习(十四) Actor-Critic
强化学习(十四) Actor-Critic

　在强化学习(十三) 策略梯度(Policy Gradient)中，我们讲到了基于策略(Policy Based)的强化学习方法的基本思路，并讨论了蒙特卡罗策略梯度reinforce算法。但是由于该算法需要完整的状态序列，同时单独对策略函数进行迭代更新，不太容易收敛。

开发者 > 博客

作者：格图洛书

发表时间： 2021-12-29 17:07:03

477

0
强化学习(十三) 策略梯度(Policy Gradient)

Gradient)，它是Policy Based强化学习方法，基于策略来学习。　　　　本文参考了Sutton的强化学习书第13章和策略梯度的论文。 1. Value Based强化学习方法的不足　　　　DQN系列强化学习算法主要的问题主要有三点。　　　　第一点

开发者 > 博客

作者：格图洛书

发表时间： 2021-12-29 15:59:35

417

0
AI市场强化学习预置算法实践----使用强化学习训练智能体玩转Atari小游戏（1）

13年发表一篇工作，将深度学习运用到强化学习任务上。随着算法改进，DeepMind的研究者使用DQN（Deep Q Network）进行Atari游戏，有接近一半的游戏上，智能体水平都超过的了人类。本篇博客，就教你使用ModelArts的AI市场上强化学习预置算法，0代码训练一个

开发者 > 博客

作者：灰灰爱喝粥

发表时间： 2020-09-12 17:28:33

9191

0
强化学习基础-蒙特卡洛(Monte Carlo)

141592653589793 ``` ## 强化学习中的应用 ### 基础应用在深度学习和强化学习领域中，许多算法实际上使用了Monte-Carlo方法，并没有给它冠名。这些算法如此基础，我们经常会忽略它的存在。例如由于计算资源受限，深度学习把一个批次样本的梯度作为整体梯度的估计

开发者 > 其他

作者： chenweifeng

244

1

总条数： 10000

上一页
1
...
5
6
7
...
500
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

浅谈强化学习网络模型设计

【话题讨论】强化学习的应用

强化学习的使用范围

基于Qlearning强化学习的路径规划算法matlab仿真

强化学习AI的未来发展

强化学习(十五) A3C

ModelAr使用强化学习内置环境

强化学习（十）Double DQN (DDQN)

强化学习(十一) Prioritized Replay DQN

强化学习实战-datawhale组队学习

浅谈强化学习基本模型和原理

MindSpore A2C 强化学习

分享IMPALA：大规模强化学习算法

【AAAI2020】强化学习玩王者荣耀

强化学习论文阅读笔记：RODE

【论文分享】基于深度强化学习的无人机自主部署及能效优化策略

强化学习(十四) Actor-Critic

强化学习(十三) 策略梯度(Policy Gradient)

AI市场强化学习预置算法实践----使用强化学习训练智能体玩转Atari小游戏（1）

强化学习基础-蒙特卡洛(Monte Carlo)

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线