已找到以下 10000 条记录
  • 【AI理论】台湾大学李宏毅深度强化学习笔记(49PPT)

    是监督式方法让机器去学习,就会变成你教授5-5后,第二手教机器下3-3,一步一步的带下法。但强化学习不一样,是到棋局结束才有奖励。阿法狗的算法则是,监督式先学习许多的棋谱,然后才用强化学习去探索更多棋谱跟走法。我们用语音机器人举例。一开始的监督则是从你一句我一句训练,然后根据动作

    作者: HWCloudAI
    发表时间: 2019-08-06 20:18:08
    5767
    0
  • 【RL】元强化学习(MRL)VS 基于迁移学习的强化学习(RL-TL)

    基于迁移学习的强化学习(RL-TL)》 元强化学习(MRL)VS 基于迁移学习的强化学习(RL-TL) 目录 1.元强化学习(Meta Reinforcement Learning)与基于迁移学习的强化学习之间的区别 2.具体解释 3.两者的应用场景 4.总结 5.元学习(Meta

    作者: 不去幼儿园
    发表时间: 2024-12-03 08:23:44
    49
    0
  • 基于强化学习的推荐研究综述

    分析了强化学习对推荐系统的提升思路,对近年来基于强化学习的推荐研究进行了梳理与总结,并分别对传统强化学习推荐和深度强化学习推荐的研究情况进行总结;在此基础上,重点总结了近年来强化学习推荐研究的若干前沿,以及其应用研究情况。最后,对强化学习在推荐系统中应用的未来发展趋势进行分析与展望。http://www

    作者: 可爱又积极
    1335
    5
  • 【MindSpore易点通】强化学习系列之强化学习的基本求解方法(二)

    不管这条路会有多危险。而Sarsa则是相当保守,他会选择规避特殊情况,达到目的是次要的,首先要保障安全性,这就是使用Sarsa方法的不同之处。参考文献[1] 陈雷.深度学习与MindSpore实践[M].清华大学出版社:2020.[2] 诸葛越,葫芦娃.百面机器学习[M].人民邮电出版社:2020.

    作者: chengxiaoli
    1253
    0
  • 强化学习基本模型和原理

    强化学习是从动物学习、参数扰动自适应控制等理论发展而来,其基本原理是:如果Agent的某个行为策略导致环境正的奖赏(强化信号),那么Agent以后产生这个行为策略的趋势便会加强。Agent的目标是在每个离散状态发现最优策略以使期望的折扣奖赏和最大。强化学习把学习看作试探评价过程,

    作者: QGS
    728
    1
  • 基于强化学习的推荐研究综述

    分析了强化学习对推荐系统的提升思路,对近年来基于强化学习的推荐研究进行了梳理与总结,并分别对传统强化学习推荐和深度强化学习推荐的研究情况进行总结;在此基础上,重点总结了近年来强化学习推荐研究的若干前沿,以及其应用研究情况。最后,对强化学习在推荐系统中应用的未来发展趋势进行分析与展望。http://www

    作者: 可爱又积极
    1060
    3
  • MindSpore AC算法强化学习

    AC算法,也称为Actor-Critic算法,是强化学习中的一种重要方法。它结合了策略梯度方法和价值函数方法的优点,主要由两部分组成:演员(Actor)和评论家(Critic)。 演员(Actor): 负责根据当前状态选择动作。 通常采用策略函数 π(a|s) 来表示在给定状态

    作者: irrational
    发表时间: 2024-06-04 12:17:36
    11
    0
  • 以大模型的角度看待强化学习

    Learning)等。3. 深度强化学习(Deep Reinforcement Learning):深度强化学习深度神经网络与强化学习相结合,通过近似值函数或策略函数来解决高维、连续状态空间和动作空间的问题。这种方法在处理复杂任务时表现出了强大的能力。代表性的算法包括使用深度神经网络的DQN、深度策略梯度方法(Deep

    作者: 运气男孩
    34
    1
  • 【话题讨论】强化学习的应用

    强化学习是一门逐渐兴起的学科,与传统的机器学习不同,强化学习以“试错”的方式进行学习,通过与环境进行交互获得的奖赏指导行为,目标是使智能体获得最大的奖赏。在业界,强化学习还广泛应用于各类游戏AI的开发中。最为著名的便是alphago击败了围棋世界冠军李世石与柯洁。除此之外,例如在

    作者: xia1111
    1750
    10
  • 强化学习 的 使用范围

    一  尽管我们在机器学习社区中广泛使用强化学习,但强化学习不仅仅是一个人工智能术语,它是许多领域中的一个中心思想,如下图(强化学习的多个方面,Many Faces of Reinforcement Learning)所示。二  事实上,许多这些领域面临着与机器学习相同的问题:如何优化决策以实现最佳结果,这就是决策科学

    作者: 我就是豆豆
    389
    0
  • ModelArts使用强化学习内置环境

    05/10/214611s75kapmgyvyjhb7n.png) #### 进入AI Gallery订阅强化学习算法 ModelArts预置的强化学习算法(名为“强化学习预置算法”)发布在AI Gallery中。您可以前往AI Gallery,订阅此模型,然后同步至ModelArts中。

    作者: 运气男孩
    1459
    3
  • ModelAr使用强化学习内置环境

    05/10/214611s75kapmgyvyjhb7n.png) #### 进入AI Gallery订阅强化学习算法 ModelArts预置的强化学习算法(名为“强化学习预置算法”)发布在AI Gallery中。您可以前往AI Gallery,订阅此模型,然后同步至ModelArts中。

    作者: 运气男孩
    528
    1
  • 探索Python中的强化学习:DQN

    强化学习是一种机器学习方法,用于训练智能体(agent)在与环境的交互中学习如何做出最优决策。DQN(Deep Q-Network)是强化学习中的一种基于深度神经网络的方法,用于学习最优策略。本文将详细介绍DQN的原理、实现方式以及如何在Python中应用。 什么是DQN? D

    作者: Echo_Wish
    发表时间: 2024-04-01 08:55:17
    103
    0
  • MindSpore强化强化学习:使用mindrl

    安装MindRL pip install https://ms-release.obs.cn-north-4.myhuaweicloud.com/2.1.0/Reinforcement/x86_64/mindspore_rl-0.7.0-py3-none-linux_x86_64

    作者: irrational
    发表时间: 2024-04-14 18:34:15
    1328
    0
  • 使用Python实现强化学习算法

    当谈论强化学习时,我们在讨论一种机器学习方法,其目标是教会智能体(agent)在与环境的交互中学习最优的行为策略,以最大化累积奖励。在本文中,我们将介绍强化学习的基本概念,并使用 Python 和 OpenAI 的 Gym 库来实现一个简单的强化学习算法:Q-learning。

    作者: Echo_Wish
    发表时间: 2024-04-26 08:54:34
    61
    0
  • 强化学习做股票预测

    强化学习是机器学习的重要组成部分,在棋牌游戏中应用较多,那么能否将它用于股票预测呢?wangshub开源了一个股票强化学习项目。 https://github.com/wangshub/RL-Stock.git 基于此项目,我们来做个简单的尝试。 首先克隆代码 !git clone

    作者: darkpard
    发表时间: 2022-09-11 02:25:04
    352
    0
  • 强化学习从基础到进阶-案例与实践[1]:强化学习概述、序列决策、动作空间定义、策略价值函数、探索与利用、Gym强化学习实验

    1.3 强化学习的历史 强化学习是有一定的历史的,早期的强化学习,我们称其为标准强化学习。最近业界把强化学习深度学习结合起来,就形成了深度强化学习(deep reinforcemet learning),因此,深度强化学习 = 深度学习 + 强化学习。我们可将标准强化学习和深度强

    作者: 汀丶
    发表时间: 2023-06-19 11:07:20
    10
    0
  • 强化学习论文阅读笔记:RODE

    文章来自ICLR 2021:RODE: Learning Roles to Decompose Multi-Agent Tasks 链接:https://arxiv.org/abs/2010.01523 代码:https://github.com/TonghanWang/RODE

    作者: yyy7124
    1103
    3
  • 浅谈强化学习网络模型设计

    立信号以及如何通过学习来修正不同状态-动作对的值。三,如何根据这些值来选择适合的动作。用强化学习方法研究未知环境下的机器人导航,由于环境的复杂性和不确定性,这些问题变得更复杂。标准的强化学习,智能体作为学习系统,获取外部环境的当前状态信息s,对环境采取试探行为u,并获取环境反馈的对此动作的评价r和新的环境状态

    作者: QGS
    29
    4
  • 强化学习AI的未来发展

    随着人工智能技术的不断发展,强化学习成为了一个备受关注的热门领域。作为一项能够让机器模仿人类决策过程的技术,强化学习在日常生活中得到了广泛的应用。在这篇文章中,我们将探讨强化学习AI的未来发展,在未来的数年中,我们有望看到它成为AI技术的主要引擎之一。 强化学习是一种让机器通过学习来达

    作者: 赵KK日常技术记录
    发表时间: 2023-06-25 18:01:06
    12
    0