当前位置: 首页 > news >正文

ui展示 网站seo网站优化服务商

ui展示 网站,seo网站优化服务商,手机建设网站公司,百度seo公司有哪些On Policy: 采集数据的模型,和训练的模型,是同一个。缺点:慢,生成一批样本数据,训练一次,又要重新生成下一批。 Off Policy: 采集数据的模型,和训练的模型,不是同一个。有点&#xf…

On Policy:

采集数据的模型,和训练的模型,是同一个。缺点:慢,生成一批样本数据,训练一次,又要重新生成下一批。

Off Policy:

采集数据的模型,和训练的模型,不是同一个。有点:快,生成一批样本数据,可以供训练多次。

例子:

On Policy: 小明上课玩手机,老师批评了小明,小明做了改正不玩手机了。行为是小明产生的,改正也是小明做的,所以是On Policy。

Off Policy: 小明上课玩手机,老师批评了小明,和小明同样喜欢上课玩儿手机的小王,看到小明因为这个被批评后,做了改正不玩手机了。行为是小明产生的,改正是小王做的,所以是Off Policy。

重要性采样

从最开始的x服从p分布,转化到x服从q分布。

把重要性采样,用在GAE强化学习上:

以上就是PPO的梯度。

以下就是PPO的损失函数:

在参考模型\theta '上进行采样,并且A里的状态价值V也是用参考模型\theta'的。

训练模型和参考模型,不能偏差过大

例子:如果小王是成绩好的学生,那么,差生小明因为考试经常交白卷被老师批评,这件事被小王看到,则对小王影响不大,小王没啥要改正的地方。只有当小王也是差生也有时会交白卷,此事才对小王有警示作用,促其改正。

加约束,有2种方式:

第1个是把KL散度加到loss里。(2个分布完全相等时,KL散度为0;差异越大,KL散度越大)

第2个是加约束,P比值,不能超出一个范围。

http://www.ds6.com.cn/news/40777.html

相关文章:

  • 坪山网站建设哪家便宜佛山营销型网站建设公司
  • 搭建一个个人网站网络营销经典失败案例
  • 两个网站做的h5如何合在一起广告推广策划
  • 昆山市做网站全球搜索引擎市场份额
  • 网页游戏不花钱的seo关键词优化软件
  • 网站怎么做数据分析搜狗站长管理平台
  • 徐州网站制作报价百度搜题在线使用
  • 做网站交接需要哪些权限seo应该如何做
  • 建筑人才招聘网站平台郑州网站推广电话
  • 怎么找网站帮我做推广百度推广电话号码
  • 手机端网站排名石家庄seo培训
  • 免费网站下载大全站长之家ip地址归属查询
  • 微信后台网站建设品牌管理
  • 建设局电工证与安监局电工证阜新网站seo
  • 南京市建委网站下载中心建设工程招标电子商务网站建设论文
  • 网站建设销售问答网站关键词如何优化上首页
  • 网站域名如何实名认证自己怎么优化网站
  • 做网站需要画原型图么百度指数只能查90天吗
  • aspcms是网站什么漏洞深圳优化公司义高粱seo
  • 博客论坛网站开发个人网站seo入门
  • 个人网站布局搜索引擎调词平台哪个好
  • 网站关键词如何做竞价广东seo推广公司
  • 学做网站零基础网络营销站点推广的方法
  • 云趣在线企业网站建设网站建设首页
  • 中国建设银行网站首页公司机构自己制作网页的网站
  • wordpress 删除主题百度seo站长工具
  • 微信导购网站怎么做视频教学seo短视频网页入口引流
  • 网站宣传的好处百度seo排名优化费用
  • 企业广告平面设计多少钱seo求职信息
  • 怎么做投票 网站免费网站申请注册