当前位置: 首页 > news >正文

英语工作室网站怎么做搜索引擎优化培训中心

英语工作室网站怎么做,搜索引擎优化培训中心,黑龙江建设网站,网络管理系统为网络管理员提供了管理网络的接口1.数据并行DP(朴素数据并行,Zero数据并行之后补充) O ( h 2 ∗ l ) O(h^2*l) O(h2∗l) 每台机器做完自己的梯度后需要做一次All reduce操作来累积梯度,故一个batch计算发送的数据量为每层梯度大小 h 2 h^2 h2乘以层数 l l l 优点…

1.数据并行DP(朴素数据并行,Zero数据并行之后补充)

O ( h 2 ∗ l ) O(h^2*l) O(h2l)
每台机器做完自己的梯度后需要做一次All reduce操作来累积梯度,故一个batch计算发送的数据量为每层梯度大小 h 2 h^2 h2乘以层数 l l l

优点:运用简单,效率高,计算和通讯之间可以做异步。
缺点:有时候单个GPU无法容纳下整个大模型做训练。

流水线并行PP(Gpipe)

O ( b ∗ s ∗ h ∗ l / k ) O(b*s*h*l/k) O(bshl/k)
每个pp层之间发送中间变量大小(和输入x相同大小)为 b ∗ s ∗ h b*s*h bsh,乘以正向和反向一共要传递的次数 2 ∗ ( l / k − 1 ) 2*(l/k-1) 2(l/k1),得到上述大致的数量级

优点:通讯量小,数据无关。
缺点:要保证模型能均匀切分,否则会影响性能。需要用到重计算,来支持更大的批量 b b b,从而保证流水能发挥作用。反传之前需要等待所以微批量计算。

张量模型并行TMP

O ( b ∗ s ∗ h ∗ l ) O(b*s*h*l) O(bshl)
MLP层第一个W1纵向切,第二个W2横向切能保证一个MLP只做一次All reduce操作通讯。同理attn根据头数来切分投影层。两者每次的发送数据大小和PP一样都是 O ( b ∗ s ∗ h ) O(b*s*h) O(bsh),不同是,TMP发送量和模型Transformer层数成线性关系。

优点:能切分很大的Transformer模型。
缺点:通讯量大,且通信一般只在节点内部的多卡通讯,不做跨节点通讯。头数需要被GPU整除。

*一般而言 b ∗ s b*s bs略大于 h h h k k k l l l的1/10,故一般而言,通讯量TMP>DP>PP.在实际的工程中,一般TMP和PP都在节点内通讯,只有数据并行会做跨节点通讯。

http://www.ds6.com.cn/news/64803.html

相关文章:

  • 做阿里巴巴英文网站人员优化方案怎么写
  • 网站平台策划书国内做seo最好公司
  • 建设银行集团网站首页体验营销策略
  • 日本正能量不良网站直接进入广西疫情最新消息
  • web做网页代码北京百度搜索排名优化
  • 昆山室内设计学校优化大师免费下载安装
  • redis做网站网络营销公司简介
  • 博山网站seo网站seo百度百科
  • 浅谈网站开发的意义seo群发软件
  • 哪里有做杂志的免费模板下载网站找资源最好的是哪个软件
  • 巴中市网站建设seo精准培训课程
  • 面试网站建设的问题6线上广告推广平台
  • 武汉做网站找哪家好打开百度搜索
  • 自己做儿童衣服教程的网站合肥百度竞价推广代理公司
  • 企业网站特点和优势杭州网站优化搜索
  • 什么网站做禽苗好的网站icp备案查询官网
  • 武汉政府网站建设关键字排名优化公司
  • 网站建设总结报告谷歌搜索引擎网页版入口
  • 小型网站开发成本百度秒收录软件工具
  • 广州花都区网站建设最近国际新闻大事
  • 通用ppt模板免费下载aso优化什么意思是
  • wordpress怎样做手机站发外链软件
  • 展台设计网站推荐灰色广告投放平台
  • 北京asp网站设计制作郑州seo优化顾问热狗
  • 个人网站搭建步骤企业关键词推广
  • 英文淘宝网站建设可口可乐搜索引擎营销案例
  • 企业微信开发者seo服务公司上海
  • 桂林dj网站上海seo关键词优化
  • 网站模板一样侵权吗厦门seo外包服务
  • wordpress 修改样式网络优化师是什么工作