搜索_华为云

内容选择

内容分类

学堂博客论坛开发服务开发工具直播视频用户

时间

一周一个月三个月

内容选择

全部

内容选择

内容分类

学堂
博客
论坛
开发服务
开发工具
直播
视频
用户

时间

一周
一个月
三个月

【MindSpore易点通】强化学习系列之浅析强化学习基础

多时候，我们可以取T=∞。强化学习的核心任务是，学习一个从状态空间S到动作空间A的映射，最大化累积受益。常用的强化学习算法有Q-Learning、策略梯度，以及演员评判家算法（Actor-Critic）等。4. 强化学习中的价值迭代上一章节已经把强化学习问题形式化为马尔可夫决策过

开发者 > 其他

作者： chengxiaoli

1273

0
值分布强化学习
值分布强化学习

模型统计意义的人为规定。值分布强化学习方法是一类新兴的强化学习方法，达到了非分布式强化学习方法上新的基准性能，在 Atari 基准上超过了原有的基于期望的 value-based RL 方法。另外，也有研究人员发现了值分布强化学习与神经科学的内在联系。因此，值分布强化学习方法具有很高的研究价

开发者 > 其他

作者： yyy7124

1509

5
《强化学习：原理与Python实现》 —1.2　强化学习的应用

1.2　强化学习的应用基于强化学习的人工智能已经有了许多成功的应用。本节将介绍强化学习的一些成功案例，让你更直观地理解强化学习，感受强化学习的强大。电动游戏：电动游戏，主要指玩家需要根据屏幕画面的内容进行操作的游戏，包括主机游戏吃豆人（PacMan，见图1-2）、PC游戏星际争霸

开发者 > 博客

作者：华章计算机

发表时间： 2019-11-12 20:15:36

8091

0
强化学习算法选择
强化学习算法选择

强化学习算法选择在机器学习中，数据不同会导致算法表现不同。同样地，在强化学习中，由于目标环境的多样性，算法在不同环境中表现截然不同。另外，结合业务场景，开发者在其他维度（如算法输出动作的连续性或离散性、算法的学习效率等）上可能还有不同的要求。因此，选择合适的强化学习算法是一个很重

开发者 > 其他

作者：黄生

14

0
《强化学习：原理与Python实现》 —1.4　强化学习的分类

1.4　强化学习的分类强化学习的任务和算法多种多样，本节介绍一些常见的分类（见图1-6）。图1-6　强化学习的分类1.4.1　按任务分类根据强化学习的任务和环境，可以将强化学习任务作以下分类。单智能体任务（single agent task）和多智能体任务（multi-agent

开发者 > 博客

作者：华章计算机

发表时间： 2019-11-12 20:18:30

6835

0
【话题讨论】强化学习
【话题讨论】强化学习

状态空间大，且不稀疏的情形下，强化学习dqn方法的效果不好，大家都有哪些比较好的处理方法呢?欢迎大家讨论

开发者 > 其他

作者： xia1111

629

2
强化学习的落地实践

强化学习的落地实践

开发者 > 视频

播放量 1084
强化学习预置算法
强化学习预置算法

Learning（强化学习预置算法）1. 概述该强化学习预置算法中，为用户提供了常用的强化学习算法，目前包括五个常用算法（DQN、PPO、A2C、IMPALA以及APEX）。用户订阅之后，选择算法只需设置对应参数，即可很方便地创建训练作业，开始训练相应的强化学习环境（内置环境或自

开发者 > 其他

作者：大赛技术圈小助手

522

0
【云驻共创】机器学习、深度学习和强化学习的关系和区别是什么

境。强化学习的常见模型是标准的马尔可夫决策过程。按给定条件，强化学习可分为基于模式的强化学习和无模式强化学习。强化学习的变体包括逆向强化学习、阶层强化学习和部分可观测系统的强化学习。求解强化学习问题所使用的算法可分为策略搜索算法和值函数算法两类。深度学习模型可以在强化学习中得到使用，形成深度强化学习。

开发者 > 博客

作者：龙腾九州

发表时间： 2022-04-29 02:13:25

1497

0
【MindSpore易点通】强化学习系列之强化学习的探索和利用

解决无模型任务的样本复杂度大的问题，基于模型的深度强化学习对解决推荐系统的问题更为可靠。该推荐系统框架使用统一的极小化极大框架学习用户行为模型和相关的奖励函数，然后再利用用户行为模型学习深度强化学习策略博弈游戏：近年来，深度强化学习在游戏博弈的应用越来越广泛。特别适用于拥有巨大状

开发者 > 其他

作者： chengxiaoli

1059

1
《强化学习：原理与Python实现》

《科学》等权威期刊发表的多个深度强化学习明星算法。本书特色本书完整地介绍了主流的强化学习理论。全书采用完整的数学体系，各章内容循序渐进，严谨地讲授强化学习的理论基础，主要定理均给出证明过程。基于理论讲解强化学习算法，覆盖了所有主流强化学习算法，包括资格迹等经典算法和深度确定性梯度策略等深度强化学习算

开发者 > 博客

作者：华章计算机

发表时间： 2019-11-12 09:57:45

8106

0
通过记忆的元强化学习
通过记忆的元强化学习

尽管现代深度强化学习(RL)算法处于人工智能能力的前沿，但通常需要大量的训练样本才能达到与人类相当的性能水平。这种严重的数据效率低下是深度RL实际应用的主要障碍: 在没有模拟器的情况下，几乎不可能将深度RL应用到任何领域。为了解决这一关键的数据低效问题，在本文中，我们致力于设计能

开发者 > 其他

作者：可爱又积极

844

2
什么是强化学习 (Reinforcement Learning)

强化学习是机器学习大家族中的一大类, 使用强化学习能够让机器学着如何在环境中拿到高分, 表现出优秀的成绩. 而这些成绩背后却是他所付出的辛苦劳动, 不断的试错, 不断地尝试, 累积经验, 学习经验.强化学习是一类算法, 是让计算机实现从一开始什么都不懂, 脑袋里没有一点想法, 通过不断地尝试

开发者 > 其他

作者：角动量

1873

1
强化学习（一）模型基础
强化学习（一）模型基础

　从今天开始整理强化学习领域的知识，主要参考的资料是Sutton的强化学习书和UCL强化学习的课程。这个系列大概准备写10到20篇，希望写完后自己的强化学习碎片化知识可以得到融会贯通，也希望可以帮到更多的人，毕竟目前系统的讲解强化学习的中文资料不太多。　　　　第一篇会从强化学习的基本概

开发者 > 博客

作者：格图洛书

发表时间： 2021-12-29 15:34:17

473

0
《深度剖析：Q-learning为何被归为无模型强化学习算法》

在强化学习的广袤领域中，Q-learning作为一种经典算法，占据着举足轻重的地位。它被明确归类为无模型的强化学习算法，这背后蕴含着深刻的技术原理和独特的设计思路。今天，就让我们一同深入探究其中的奥秘。强化学习算法的两大阵营：有模型与无模型在探讨Q-learning为何属于无

开发者 > 博客

作者：程序员阿伟

发表时间： 2025-01-29 17:14:31

73

0
使用强化学习内置环境
使用强化学习内置环境

05/10/214611s75kapmgyvyjhb7n.png) #### 进入AI Gallery订阅强化学习算法 ModelArts预置的强化学习算法（名为“强化学习预置算法”）发布在AI Gallery中。您可以前往AI Gallery，订阅此模型，然后同步至ModelArts中。

开发者 > 其他

作者：运气男孩

925

1
强化学习网络模型
强化学习网络模型

每一个自主体是由两个神经网络模块组成，即行动网络和评估网络。行动网络是根据当前的状态而决定下一个时刻施加到环境上去的最好动作。对于行动网络，强化学习算法允许它的输出结点进行随机搜索，有了来自评估网络的内部强化信号后，行动网络的输出结点即可有效地完成随机搜索并且大大地提高选择好的动作的

开发者 > 其他

作者： QGS

419

1
强化学习算法中SARSA
强化学习算法中SARSA

这使得SARSA算法更适合于处理连续决策问题，如强化学习中的马尔可夫决策过程（Markov Decision Process）。总之，SARSA是一种基于状态-动作-奖励-下一个状态-下一个动作的模式进行学习和决策的强化学习算法。它通过差分更新的方式逐步调整状态-动作对的价值

开发者 > 博客

作者：皮牙子抓饭

发表时间： 2023-08-29 09:12:54

5

0
强化学习心得2
强化学习心得2

一只熊；而强化学习输出的是当看到一只熊时要作出怎样的反应，是趴下装死还是赶紧跑路。对于一颗植物来说，对于植物现在时刻的状态选择浇水或者不浇水，都会以一定的概率得到植物的下一个状态。这就是强化学习。对于强化学习来说，有以下4个核心组成部分：强化学习四元组E = <S,A,P,R>s：state

开发者 > 其他

作者： xia1111

1052

1
使用强化学习内置环境
使用强化学习内置环境

05/10/214611s75kapmgyvyjhb7n.png) #### 进入AI Gallery订阅强化学习算法 ModelArts预置的强化学习算法（名为“强化学习预置算法”）发布在AI Gallery中。您可以前往AI Gallery，订阅此模型，然后同步至ModelArts中。

开发者 > 其他

作者：运气男孩

1566

3

总条数： 10000

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

【MindSpore易点通】强化学习系列之浅析强化学习基础

值分布强化学习

《强化学习：原理与Python实现》 —1.2　强化学习的应用

强化学习算法选择

《强化学习：原理与Python实现》 —1.4　强化学习的分类

【话题讨论】强化学习

强化学习的落地实践

强化学习预置算法

【云驻共创】机器学习、深度学习和强化学习的关系和区别是什么

【MindSpore易点通】强化学习系列之强化学习的探索和利用

《强化学习：原理与Python实现》

通过记忆的元强化学习

什么是强化学习 (Reinforcement Learning)

强化学习（一）模型基础

《深度剖析：Q-learning为何被归为无模型强化学习算法》

使用强化学习内置环境

强化学习网络模型

强化学习算法中SARSA

强化学习心得2

使用强化学习内置环境

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线