当前位置: 首页 > news >正文

重庆网站建设找重庆万为济南做seo外包

重庆网站建设找重庆万为,济南做seo外包,行业网站源码,大汉网站开发使用transformers训练二分类任务时,训练损失异常大 问题分析 问题 training_loss异常大,在二分类损失中,收敛在1~2附近,而eval_loss却正常(小于0.5) 分析 参考: Bug in gradient accumulation…

使用transformers训练二分类任务时,训练损失异常大

  • 问题
  • 分析

问题

training_loss异常大,在二分类损失中,收敛在1~2附近,而eval_loss却正常(小于0.5)

分析

参考:
Bug in gradient accumulation training_step in huggingface Trainer?
Fix Gradient Accumulation issue
使用解决了多卡gradient accumulation严重BUG的最新transformer库(以及对应的trl库),DPO训练的时候LOSS变为之前的好几倍
New GA fix causes training loss multiple times higher across the board (5x to 10x higher)

版本:trainsformer==4.46.0

怀疑启用training_args.gradient_accumulation_steps后,training_loss变大。
请添加图片描述

请添加图片描述

对比后发现,确实启用GA后,training_loss会变大,差不多是不启用GA的4倍。

这下差不多可以确定,在启用GA后,training_loss乘上了GA。

看到社区也有很多人在讨论这个问题,目前transformers最新版本是4.46.3,不知道是否解决了这个问题。

最新版本是4.46.3,不知道是否解决了这个问题。

transformers怎么这么多bug…


20241122:实测4.46.3版本还是未解决使用GA后,训练损失偏大的问题。

http://www.ds6.com.cn/news/31409.html

相关文章:

  • 网站接入服务器商查询指数函数公式
  • 吉林市网站创意与建设网站搭建谷歌seo
  • 镇江网站建设yubei021引流推广平台有哪些
  • 精品资源共享课程网站建设论文快速seo排名优化
  • 怎样搭建微网站排名前十的小说
  • 南昌商城网站建设无锡网站制作优化
  • 做网站开发赚钱吗一级域名生成二级域名
  • 网站怎么做框架集网络优化
  • 班级网站做哪些方面营销手段
  • 家居网站建设渠道seo优化顾问服务阿亮
  • 商城网站建设软件站长之家网站
  • 网站建设发展前景淘宝指数查询官网手机版
  • wordpress医院西安网站seo技术
  • 首都航空公司官方网站今天济南刚刚发生的新闻
  • 做类似360手赚那样的网站网站优化网
  • 网站前端开发百度指数的数据怎么导出
  • 重庆彭水网站建设线上销售水果营销方案
  • 做图表用的网站国内搜索引擎网站
  • 石家庄政府网站建设标题优化seo
  • 成都网站建设定各大网站的网址
  • 广州东莞网站建设重庆seo教程
  • 苏州建站公司精选苏州聚尚网络百度推广一年大概多少钱
  • 亚洲做爰直播网站steam交易链接怎么改
  • 网站怎么做图片动态图2345网址导航下载桌面
  • 怎么用esc服务器做网站全球最大的中文搜索引擎
  • 网站建设专业书入门seo排名是什么意思
  • 手机端网站怎么做友链大全
  • 好用的网站开发框架软文写作案例
  • 简单网站设计网站广告推广费用
  • 网站开发常用中间件深圳网络营销推广