当前位置: 首页 > news >正文

上海高端网站开发培训教育

上海高端网站开发,培训教育,苏州百姓网,做环氧地坪工程网站Abstract 奖励学习(reward learning)可以将强化学习(RL)应用到由人类判断定义奖励的任务中,通过询问人类问题来构建奖励模型。奖励学习的大部分工作使用了模拟环境,但是关于价值的复杂信息经常是以自然语言的形式表达的。我们相信语言奖励学习是使强化学习在现实世界任务…

Abstract

奖励学习(reward learning)可以将强化学习(RL)应用到由人类判断定义奖励的任务中,通过询问人类问题来构建奖励模型。奖励学习的大部分工作使用了模拟环境,但是关于价值的复杂信息经常是以自然语言的形式表达的。我们相信语言奖励学习是使强化学习在现实世界任务中实用且安全的关键。在本文中,我们基于语言模型生成式预训练方面的进展,将奖励学习应用于四种自然语言任务:

  • continuing text with positive sentiment or physically descriptive language
  • summarization tasks on the TL;DR and CNN/Daily Mail datasets.

对于风格延续(stylistic continuation)任务,我们仅使用人类评估的 5,000 个比较就取得了良好的结果。
对于 summarization 任务,只使用 60,000 个比较训练的模型可以从输入中复制整个句子但跳过不相关的序言。
根据人类标注者的评估,这带来了合理的 ROUGE 分数和非常好的性能,但可能是利用了标注者依赖简单启发法这一事实。

1. Introduction

我们希望将强化学习应用于仅由人类判断定义的复杂任务,在这些任务中我们只能通过询问人类来判断结果是好还是坏。为了实现这个目标,我们首先利用人类标注来训练一个 reward model, 然后优化该模型。通过与人类的交互来学习这种模型已有很长的历史,但最近才被用于现代深度学习,而且只被用于相对简单的模拟环境 (

http://www.ds6.com.cn/news/110584.html

相关文章:

  • 交互设计包含网站设计最新新闻热点事件摘抄
  • 信息发布类网站模板站长seo查询工具
  • 成都网站建设定制开发系统优优群排名优化软件
  • 德胜门网站建设排名第一的玉米品种
  • 淘宝客是如何做网站与淘宝对接的seo培训机构
  • 网站服务器组建十大互联网广告公司
  • 东莞网站设计价格广州网站seo
  • 做网站图标按钮素材网络营销课程作业
  • 做网站建本地环境作用广西网站建设
  • 专门做推荐的网站自己想开个网站怎么弄
  • 网站做的支付宝接口吗怎么创建网站赚钱
  • python做网站好不好seo搜索引擎优化课程
  • 搭建网站吧抖音优化是什么意思
  • 网站的建设步骤包括阿里云搜索
  • 做旅游网站赚钱吗程序员培训班要多少钱
  • 外国做家具的网站企业查询网
  • 长春网站建设工作网络推广都有什么方式
  • ai网页设计教程扬州百度关键词优化
  • 我找客户做网站怎么说免费b2b网站有哪些
  • 呼伦贝尔网站建设维护网络软文发布平台
  • 专做中医教学网站获客引流100种方法
  • 百度指数网站邯郸seo
  • 百度wordpress插件谷歌seo公司
  • 内蒙古电子商务网站广州seo全网营销
  • 网站被挂黑后果兔子bt搜索
  • 网站落地页怎么做的新闻网站软文平台
  • 基于h5的个人网站建设外链推广
  • 美国设计网站南京市网站
  • flash同视频做网站怎么在百度免费推广
  • 网站域名不想实名认证seo初级入门教程