当前位置: 首页 > news >正文

在线做3d交互的网站厦门百度整站优化服务

在线做3d交互的网站,厦门百度整站优化服务,丹阳企业网站,网络游戏传奇机器学习模型的训练过程中,可能会出现3种情况:模型欠拟合、模型正常拟合与模型过拟合。其中模型欠拟合与模型过拟合都是不好的情况。下面将会从不同的角度介绍如何判断模型属于哪种拟合情况。 (1)欠拟合与过拟合表现方式 欠拟合…

机器学习模型的训练过程中,可能会出现3种情况:模型欠拟合、模型正常拟合与模型过拟合。其中模型欠拟合与模型过拟合都是不好的情况。下面将会从不同的角度介绍如何判断模型属于哪种拟合情况。

(1)欠拟合与过拟合表现方式

欠拟合:欠拟合是指不能很好的从训练数据中,学习到有用的数据模式,从而针对训练数据和待预测的数据,均不能获得很好的预测效果。如果使用的训练样本过少,较容易获得欠拟合的训练模型。

正常拟合:模型的正常拟合是指训练得到的模型,可以从训练数据集上学习得到了泛化能力强、预测误差小的模型,同时该模型还可以针对待测试的数据进行良好的预测,获得令人满意的预测效果。

过拟合:过拟合是指过于精确地匹配了特定数据集,导致获得的模型不能良好地拟合其他数据或预测未来的观察结果的现象。模型如果过拟合,会导致模型的偏差很小,但是方差会很大。

上面的介绍可能不能直观的快速了解数据的三种拟合情况,下面分别介绍针对分类问题和回归问题,不同任务下的拟合效果,获得的模型对数据训练后的表示形式。针对二分类问题可以使用分界面,表示所获得的模型与训练数据的表现形式,图1表示三种情况下的数据分界面。

图1 分类问题的三种数据拟合情况

从图1可以发现:欠拟合的数据模型较为简单,因此获得的预测误差也会较大,而过拟合的模型则正相反,其分界面完美的将训练数据全部分类正确,获得的模型过于复杂,虽然训练数据能够百分百预测正确,但是当预测新的测试数据时会有较高的错误率。而数据正常拟合的模型,对数据的拟合效果则是介于欠拟合和过拟合之间,训练获得不那么复杂的模型,保证在测试数据集上的泛化能力。三种情况在训练数据集上的预测误差的表现形式为:欠拟合>正常拟合>过拟合;而在测试集上的预测误差形式为:欠拟合>过拟合>正常拟合。

针对回归问题,在对连续变量进行预测时,三种数据拟合情况可以使用图2来表示。三幅图分别表示对一组连续变量进行数据拟合时,可能出现的欠拟合、正常拟合与过拟合的三种情形。

图2 回归问题的三种数据拟合情况

很多时候面对高维的数据,很难可视化出分类模型的分界面与回归模型的预测效果,那么如何判断模型的拟合情况呢?针对这种情况,通常可以使用两种判断方案。第一种是,判断在训练集和测试集上的预测误差的差异大小,正常拟合的模型通常在训练集和测试集上的预测误差相差不大,而且预测的效果均较好;欠拟合模型在训练集和测试集上的预测效果均较差;过拟合模型则会在训练数据集上获得很小的预测误差,但是在测试集上会获得较大的预测误差。另一种方式,是可视化出模型在的训练过程中,三种不同的数据拟合情况,在训练数据和测试数据(或验证数据)上的损失函数变化情况,如图3所示。

图3三种数据拟合情况的损失函数变化情况

(2)避免欠拟合与过拟合的方法

实践过程中,如果发现训练的模型对数据进行了欠拟合或者过拟合,通常要对模型进行调整,解决这些问题是一个复杂综合的过程,而且很多时候要进行多项的调整,下面介绍一些可以采用的相关解决方法。

增加数据量:如果训练数据较少,通常可能会导致数据的欠拟合,也会发生在训练集上的过拟合问题。因此更多的训练样本通常会使模型更加的稳定,所以训练样本的增加不仅可以得到更有效的训练结果,也能在一定程度上调整模型的拟合效果,增强其泛化能力。但是如果训练样本有限,也可以利用数据增强技术对现有的数据集进行扩充。

合理的数据切分:针对现有的数据集,在训练模型时,可以将数据集进行切分为训练集、验证集和测试集(或者使用交叉验证的方法)。在对数据进行切分后,可以使用训练集来训练模型,并且通过验证集来监督模型的学习过程,也可以在网络过拟合之前提前终止模型的训练。在模型训练结束后,可以利用测试集来测试训练结果的泛化能力。

当然在保证数据尽可能的来自同一分布的情况下,如何有效的对数据集进行切分也很重要,传统的数据切分方法通常是按照60:20:20的比例拆分,但是针对数据量的不同,数据切分的比例也不尽相同,尤其在大数据时代,如果数据集有几百万甚至上亿级条目时,这种60:20:20比例的划分已经不再合适,更好的方式是将数据集的98%用于训练,保证尽可能多的样本接受训练,使用1%的样本用于验证集,这1%的数据已经有足够多的样本来监督模型是否过拟合,最后使用1%的样本测试网络的泛化能力。所以针对数据量的大小、网络参数的数量,数据的切分比例可以根据实际的需要来确定。

正则化方法:正则化方式是解决模型过拟合问题的一种手段,其通常会在损失函数上添加对训练参数的惩罚范数,通过添加的范数惩罚对需要训练的参数进行约束,防止模型过拟合。常用的正则化参数有L1和L2范数,范数惩罚项的目的是将参数的绝对值最小化,范数惩罚项的目的是将参数的平方和最小化。使用正则化防止过拟合非常有效,如在经典的线性回归模型中,使用L1范数正则化的模型叫做Lasso回归,使用L2范数正则化的模型叫做Ridge回归。

参考书籍:《Python机器学习算法与实战》——孙玉林,余本国 著

http://www.ds6.com.cn/news/26716.html

相关文章:

  • 临沂做网站优化海外seo
  • 一句吸引人的广告语宁波seo网络优化公司
  • wordpress app展示seo优化顾问服务
  • 做网站公司推荐百度手机导航官方新版
  • 宜春做网站今天重要新闻
  • 化妆品b2b网站大全整合营销传播
  • 温州网站建设哪家好世界疫情最新数据
  • 阜阳做网站做网站的软件
  • 做阀门销售在哪个网站上做好软文推广的优点
  • 产品微信网站建设百度网站提交了多久收录
  • 深圳建网站seoseo顾问多少钱
  • b站看男女灰色关键词排名
  • 佛山响应式网站建设营销策划与运营团队
  • 做网站的那家公司好地推团队接单平台
  • 个人网站设计作品百度指数怎么用
  • o2o网站建设咨询最新新闻今天最新新闻
  • 欧美风网站建设大数据营销案例分析
  • 免费网站软件哪个好拼多多推广引流软件免费
  • wordpress管理登录seo外推软件
  • 网站的切换语言都是怎么做的播放量自助下单平台
  • asp.net 开发的网站网站宣传方法
  • 荔湾区建设局网站直接下载app
  • 有网站如何做直播互联网营销方式
  • 越秀区做网站下载百度推广app
  • 老网站做seo能不能重新注册抖音关键词优化
  • 网页中网站设计规划流程矿泉水软文广告500字
  • 360极速浏览器网站开发缓存最新长尾关键词挖掘
  • 邢台企业做网站网站权重优化
  • 临武县网站建设石家庄网站seo
  • 域名停靠应用下载软件大全2023优化seo教程