当前位置: 首页 > news >正文

湖南网站建设什么优化

湖南网站建设,什么优化,武汉做网站最牛的公司,德州网站设计开放和高效的基础语言模型 Paper:https://arxiv.org/abs/2302.13971 Code: https://github.com/facebookresearch/llama 摘要 本文介绍了 LLaMA,这是⼀个包含 7B 到 65B 参数的基础语⾔模型的集合。作者在数万亿个令牌上训练模型,并表明可以…

开放和高效的基础语言模型

Paper:https://arxiv.org/abs/2302.13971
Code: https://github.com/facebookresearch/llama

摘要

本文介绍了 LLaMA,这是⼀个包含 7B 到 65B 参数的基础语⾔模型的集合。作者在数万亿个令牌上训练模型,并表明可以仅使⽤公开可⽤的数据集来训练最先进的模型。特别是, LLaMA-13B 在⼤多数基准测试中都优于 GPT-3 (175B),并且 LLaMA 65B与最好的模型Chinchilla-70B和 PaLM-540B具有竞争⼒。

实验

数据集

训练数据集是多个来源的混合,如表 1 所示,涵盖了不同的领域。

总体而言,作者的整个训练数据集在标记化后包含大约 1.4T 标记。对于作者的大部分训练数据,每个标记在训练过程中只使用一次

模型

整体架构仍然是Transformer的解码器模块,该模块参考论文Attention is all you need。下面是在Transformer架构上的进一步的3个改进。

  • 使用RMSNorm(即Root Mean square Layer Normalization)对输入数据进行标准化,RMSNorm可以参考论文:Root mean square layer normalization。
    原始Normalization:
    μ = 1 n ∑ i = 1 n a i , σ = 1 n ∑ i = 1 n ( a i − μ ) 2 \mu=\frac{1}{n} \sum_{i=1}^n a_i, \quad \sigma=\sqrt{\frac{1}{n} \sum_{i=1}^n\left(a_i-\mu\right)^2} μ=n1i=1nai,σ=n1i=1n(aiμ)2
    RMSNorm:
    a ˉ i = a i RMS ⁡ ( a ) g i , where  RMS ⁡ ( a ) = 1 n ∑ i = 1 n a i 2 \bar{a}_i=\frac{a_i}{\operatorname{RMS}(\mathbf{a})} g_i, \quad \text { where } \operatorname{RMS}(\mathbf{a})=\sqrt{\frac{1}{n} \sum_{i=1}^n a_i^2} aˉi=RMS(a)aigi, where RMS(a)=n1i=1nai2
  • 使用激活函数SwiGLU, 该函数可以参考PALM论文:Glu variants improve transformer。作者用SwiGLU激活函数代替ReLU非线性,以提高性能。
  • 使用Rotary Embeddings进行位置编码,该编码可以参考论文 Roformer: Enhanced transformer with rotary position embedding。作者删除了绝对位置嵌入,取而代之的是在网络的每一层添加了旋转位置嵌入 (RoPE)。

优化器

采用AdamW optimizer优化器,该优化器可以参考论文Decoupled weight decay regularization。具有以下超参数:β1 = 0.9,β2 = 0.95。作者使用余弦学习率计划,使最终学习率等于最大学习率的 10%。作者使用 0.1 的权重衰减和 1.0 的梯度裁剪。并根据模型的大小改变学习率和批量大小。

LLaMA-33B 和 LLaMA65B 在 1.4T tokens上进行了训练。较小的模型是在 1.0T tokens上训练的.

在训练 65B 参数模型时,作者的代码在具有80GB RAM 的 2048 A100 GPU 上处理大约 380 个令牌/秒/GPU。这意味着对包含 1.4T 令牌的数据集进行训练大约需要 21 天

其他有效改进措施

  • 使用 随机多头注意力机制(causal multi-head attention) 提高模型的训练速度。该机制的实现借用了xformers库,它的思路是不存储注意力权重,不计算其中注意力得分。
  • 手动实现了Transformer的激活函数,而没有用pytorch库的autograd,以得到更优的训练速度。同时使用了并行化技术提高训练速度。这两个改进点可以参考论文:Reducing activation recomputation in large transformer models.

参考

https://blog.csdn.net/a1920993165/article/details/130044242

http://www.ds6.com.cn/news/50598.html

相关文章:

  • 郑州网站建设代运营苏州seo服务
  • 网站改版做301是啥意思 换域名百度 个人中心首页
  • 搜索排名优化公司引擎seo如何优化
  • lua做网站网络营销推广策划的步骤
  • 济南市人民政府门户网站专业关键词优化平台
  • 极简wordpress主题、成都搜狗seo
  • 免费咨询医师天津企业seo
  • 邢台各种类型网站建设售后完善seo外链购买
  • 哪些网站可以做淘宝店招引流推广的句子
  • 吉林省吉林市丰满区优化大师怎么强力卸载
  • 南京网站优化网站建设公司网站域名ip查询
  • 什么网站可以做高数模板网站建设开发
  • 制作免费网站央视新闻
  • wordpress响应式网站模板浏览器大全网站
  • 没有网站没有推广如何做外贸电子商务营销方法
  • 各类网站排名竞价开户推广
  • 电子商务b2c模式网站外部优化的4大重点
  • php做网站需要mysql么百度如何优化
  • 最美珠海app下载灰色词seo推广
  • 中国e网网站建设怎样建网站赚钱
  • 橙子建站是干啥的营销型企业网站建设的内容
  • 自己有云主机 怎么网站备案天津关键词优化网站
  • 怎么做网站销售商业网站
  • 沈阳定制网站开发公司上海做网络口碑优化的公司
  • 电子商务网站建设 期末考试试卷以及答案做网站seo怎么赚钱
  • 什么是设计方案seo应该如何做
  • wordpress 阿里云网站关键词搜索排名优化
  • 德惠网站零售客户电商网站
  • 秦皇岛网站建设报价网络营销课程个人总结3000字
  • 做模拟人生比较有名的网站站长工具seo优化系统