当前位置: 首页 > news >正文

卡盟网站怎么做图片推广普通话手抄报内容大全资料

卡盟网站怎么做图片,推广普通话手抄报内容大全资料,安徽省建设工程信息网官方,上海行业网站建设2024/6/23: 前段时间有幸完成了大学期间的第一篇论文。在面试之前复盘一下关于自己论文中DQN的一些相关点。 浅谈主要区别(在线 or 离线) 首先,一切的开始是强化学习中时序差分方程,这体现了强化学习方法的优化策略。在…

2024/6/23:

        前段时间有幸完成了大学期间的第一篇论文。在面试之前复盘一下关于自己论文中DQN的一些相关点。

浅谈主要区别(在线 or 离线)

        首先,一切的开始是强化学习中时序差分方程,这体现了强化学习方法的优化策略。在看方程之前,先要理解Q值的概念——即当前状态S下采取动作A继续下去能够得到的最佳收益

        该方程通过Target值(采取当前动作后得到的奖励 + 采取动作后下一个状态根据某个策略选取动作的Q值)减去估计值(当前估计的当前状态采取A的Q值)再乘上一个类似于学习率的量来更新当前估计的当前状态的Q值,而方程的目的就是来逼近真正的最佳收益。可能有点绕,但是从类似于动态规划的角度看会明白一点。

        下面是on-policy和off-policy策略的区别:

        这两种策略本质上的区别是他们的时序差分方程,如下图所示,上面的target属于on-policy方法,下面的属于off-policy方法:

        on-policy主要应用于Sarsa方法,是一种在线的交互式的学习方法,大概就像是。采取这种策略的方法通过当前状态下选取的一定会执行的action来优化自身的Q表格。action的选取可以通过随机选取,也可以根据贪婪策略选取,然后根据这个选取的action计算得到的结果来更新Q表格。很显然,用这种方法进行训练的效率很慢,需要很长的时间方法才可以收敛,在我看来基本是off-policy方法的完全下位,但优点也存在,也就是对在线交互式实验方法的适应。

        从时序差分方程的角度看下面这张图,将其中的内容和方程中的联系起来看,就能大概理解sarsa做了什么:

        off-policy是一种更加常用的方法,Q-learning和DQN都属于这一类的方法。从方程中获取target值的区别就可以看到,他使用下个状态的采取所有动作的最佳Q值来优化,因此收敛也更快。

参考:在线/离线策略区别

面向新手:从零学习强化学习

http://www.ds6.com.cn/news/74836.html

相关文章:

  • 网站建设服务商24小时接单新冠病毒最新消息
  • 政府网站集约化建设问题百度推广登录平台官网
  • 企业网站建设 cms免费seo关键词优化服务
  • 在什么网站上可以找设计兼职来做宣传推广计划怎么写
  • 网站开发过程和里程碑竞价恶意点击立案标准
  • 炎陵做网站网络推广服务协议
  • 江苏做网站公司有哪些百度搜索引擎广告
  • 鞍山网站建设公司自己建网站怎么建
  • 宁夏银川做网站的公司有哪些网络营销渠道名词解释
  • 宁波海曙网站开发公司电话黄冈seo顾问
  • 如何介绍一个网站的促销功能对网站进行seo优化
  • 精美的微网站如何进行搜索引擎优化 简答案
  • 西藏林芝建设厅官方网站百度关键词优化师
  • 一个网站怎么做关键词搜索新闻头条今日要闻10条
  • 做网站的cnfg推广的十种方式
  • 这么做网站教程如何做好seo优化
  • 有没有帮别人做创意的网站搜索引擎优化与关键词的关系
  • 个人可以做b2b网站吗搜索引擎营销的优势
  • 网站程序风格南宁seo优化公司
  • 广州网站建设出售网片
  • 做网站必要吗上海网站设计公司
  • 河北邯郸做移动网站花生壳免费域名注册
  • 有没有专做泰国代购的网站百度指数查询官网
  • 云南制作网站的公司百度招聘2022年最新招聘
  • 计算机包含哪些专业营口seo
  • 上饶哪有做网站的公司万网域名查询官网
  • 做任务赚钱的网站靠谱吗上海搜索引擎推广公司
  • 淘宝客做网站怎样推广北京百度推广电话
  • 网站建设资金请示购买网站域名
  • 购物网站开发背景及目的永久不收费免费的软件