当前位置: 首页 > news >正文

最好网站建设公司哪家好友情链接的获取途径有哪些

最好网站建设公司哪家好,友情链接的获取途径有哪些,郑州市建设委员会网站,web可以做3d网站吗on-policy的定义:behavior policy和target-policy相同的是on-policy,不同的是off-policy。 behavior policy:采样数据的策略,影响的是采样出来s,a的分布。 target policy:就是被不断迭代修改的策略。 如果是基于深度…

on-policy的定义:behavior policy和target-policy相同的是on-policy,不同的是off-policy。

behavior policy:采样数据的策略,影响的是采样出来s,a的分布。
target policy:就是被不断迭代修改的策略。

如果是基于深度的算法,那么非常好分辨:目标函数里面一定有s和a的期望,而计算梯度的时候使用了SGD,把一个采样作为了期望的值。但是这里面还有一个隐含的限制就是采样遵循的分布必须是s,a的分布。

因此分辨是否是on-policy的,只需要看目标函数。如果目标函数中s,a的分布和策略相关的,那么一定是on-policy的,如果是策略无关的,那么一定是off-policy的。

比如DQN的目标函数:在这里插入图片描述
这里一个(s,a)对看成一个随机变量,服从均匀分布,因此分布和策略无关(至于为什么s,a是均匀分布,那个是算法自己假设的),因此采样的时候需要用到experience replay,使得不管什么策略采样得到的reward,都变成均匀分布的。

因此用了experice replay之后,随便什么策略采样,虽然采样出来s,a服从那个策略的分布,但是经过experice replay之后还是变成了均匀分布。

比如PG:
在这里插入图片描述

这里面的随机变量是s, 而s是服从stationary distribution,就是agent出现在这个state的次数形成的分布。而这个分布和策略pi是相关的,因此是on-policy的(改变策略之后,agent出现的概率也改变了)

比如DPG:

在这里插入图片描述
这里面的分布d是一个常数(这是为了计算梯度方便),因此DPG中s,a的采样和策略无关,是off-policy的。

比如PPO:

在这里插入图片描述
就是一个期望+一个类似正则项的东西,而非常明显看出来,这个期望是服从策略theta’的,也就是说s,a分布和策略相关,因此是on-policy的。

简单说下PPO:PPO用两个网络表示策略,一个是theta’一个是theta,用theta’网络的策略采样reward,得到的reward给theta的网络梯度下降。看起来怎么用了两个策略? 其实两个策略最后慢慢收敛到一起的,是一个策略。如果是off-policy是完全和策略无关的。

http://www.ds6.com.cn/news/26532.html

相关文章:

  • 自己电脑做网站 路由器制作网页链接
  • 网站建设中最基本的决策之一是网络营销的概念
  • 黄冈建设局网站唐山seo排名
  • 做视频网站用什么云盘好友情链接管理系统
  • 没有空间可以做网站吗seo中文含义
  • dw 个人网站怎么做泰州seo外包
  • 广东专业移动网站建设哪家好seo在线推广
  • 推广网站如何做移动优化课主讲:夫唯老师
  • 查网站流量查询工具成都网站快速优化排名
  • 青岛专业网站建设价格百度大搜是什么
  • 暴雪代理最新消息排名优化公司哪家效果好
  • 做视频网站资源采集企业网站怎么制作
  • 做网站用到哪些软件企业营销管理
  • 网站首页的布局成都搜狗seo
  • wordpress 腾讯cdn西安seo优化顾问
  • 哪个编程在线教育好搜索引擎优化不包括
  • 素材图库网站源码seo专业培训seo专业培训
  • 做职业测试的网站seo建站公司推荐
  • 建设小说网站app运营需要做哪些
  • wordpress海报功能李勇seo的博客
  • 郑州网站建设公司价格抖音关键词排名查询
  • web如何做网站seo网站外链平台
  • 珠海有什么好的互联网公司seo外链怎么发
  • 铁路网站建设论文电子网址怎么创建
  • 建站宝盒全能版信息流优化
  • 个人网站 备案 备注品牌网站建设方案
  • 公司怎么注册邮箱帐号网站推广seo设置
  • 做日语网站被忽悠去做网销了
  • 也是网络品牌建设和推广的基础广东seo推广公司
  • 你们交学费做网站怎么免费推广自己网站