当前位置: 首页 > news >正文

网站公安备案咨询电话石家庄seo结算

网站公安备案咨询电话,石家庄seo结算,中国近期的军事大新闻,网站域名为个人的公司能备案“TOKEN STATISTICS TRANSFORMER: LINEAR-TIME ATTENTION VIA VARIATIONAL RATE REDUCTION” 由Ziyang Wu等人撰写。文章提出一种新型Transformer注意力算子,通过对最大编码率降低( M C R 2 MCR^{2} MCR2)目标的变分形式进行展开优化得到&…

“TOKEN STATISTICS TRANSFORMER: LINEAR-TIME ATTENTION VIA VARIATIONAL RATE REDUCTION” 由Ziyang Wu等人撰写。文章提出一种新型Transformer注意力算子,通过对最大编码率降低( M C R 2 MCR^{2} MCR2)目标的变分形式进行展开优化得到,其计算复杂度与令牌数量呈线性关系,在保证性能的同时显著提高计算效率。

也因此 ToST 也作为 Spotlight 论文,入选了 ICLR 2025 大会。

下面是对本篇论文的重点总结。

  1. 研究背景

    • Transformer的问题:Transformer架构凭借注意力机制在多领域表现出色,但传统自注意力算子计算复杂度与令牌数量呈二次方关系,限制了模型扩展。

    • 现有优化方法:已有方法如分块计算、滑动窗口注意力、低秩投影和Nystrom扩展等,试图解决自注意力的计算效率问题。

    • 本文方法:基于“白盒”架构设计,从全新视角推导高效注意力算子,避免计算令牌间成对相似性。

  2. 理论基础

    • 最大编码率降低表示学习:通过 M C R 2 MCR^{2} MCR2目标寻找合适的数据表示,其由扩展项和压缩项组成,分别促进特征扩展和组内压缩。

    • 白盒深度网络构建:通过算法展开设计网络架构,将网络层操作视为优化目标函数的增量更新步骤。

  3. Token Statistics Transformer(TOST)

    • 编码率的新变分形式:提出基于矩阵谱的凹函数的 M C R 2 MCR^{2} MCR2目标变分形式,可通过计算矩阵乘积对角线的标量函数来上界大矩阵的函数值。

    • 通过变分形式展开的高效架构:对变分目标进行梯度下降得到Token Statistics Self - Attention(TSSA)算子,其基于输入令牌特征的经验二阶矩统计进行低秩投影,而非计算令牌间成对相似性,计算和内存复杂度为线性。

    • 实际实现考虑因素:实际中不强制U矩阵正交,通过寻找低维正交基降低其列数,并基于高斯混合模型估计组隶属矩阵Π,用TSSA算子构建TOST架构。

  4. 实验结果

    • TSSA算子的逐层分析:TOST注意力层能优化设计目标,且成员分配矩阵Π可对前景图像补丁聚类。

    • 真实视觉数据集评估:TOST在ImageNet - 1k和迁移学习任务上性能与其他架构相当,但效率更高、参数更少,注意力图可视化显示其能自主学习分割和聚类。

    • 语言和长序列任务评估:在长序列建模任务中,TOST性能优于多数基于Transformer的方法;在因果语言建模任务中,性能随模型规模提升,且计算效率更高。

  5. 结论与展望:提出的TOST架构通过新的注意力算子实现线性时间复杂度,性能与传统Transformer相当。未来需在大规模应用中验证其准确性,并设计更有效的MLP块替代方案。

总结完毕,下面我们一起来探究这篇论文所研究的 ToST 到底是怎么回事,为什么说它是线性注意力革命,能重新定义 Transformer 效率天花板,我们先来看一张图。
在这里插入图片描述

这张图表示 ToST 架构对比传统Transformer,可以在图中看出:
ToST在4096 token长度下,内存消耗仅为ViT的1/20(图源:论文)

一、注意力机制:从暴力美学到数学之美

2017年,Transformer以自注意力机制横扫NLP领域。其核心逻辑简单粗暴:让每个token与其他所有token对话。这种"全连接"式的设计虽然强大,却埋下了一个定时炸弹——当处理4096个token时,传统Transformer需要计算1600万次相似度!

ToST的突破在于发现了一个数学真理:无需两两对话,统计特征足以刻画全局关系。这就像从逐一采访每个公民转向分析人口普查数据,效率实现质的飞跃。

# 传统注意力计算(O(n²)复杂度)
def standard_attention(Q, K, V):scores = torch.matmul(Q, K.transpose(-2, -1))  # 两两相似度矩阵attn = torch.softmax(scores, dim=-1)return torch.matmul(attn, V)# ToST的统计注意力(O(n)复杂度)
def TSSA(X, heads=8):b, n, d = X.shapeproj = nn.Linear(d, heads*d)(X)  # 投影到多头空间proj = proj.view(b, n, heads, d//heads).transpose(1,2)# 统计量计算(核心创新)stats = proj.pow(2).mean(dim=1, keepdim=True)  # 二阶矩统计gate = 1 / (1 + stats)  # 基于统计量的门控return (proj * gate).transpose(1,2).reshape(b, n, d)

二、ToST核心原理:用数学公式重塑注意力

1. 最大编码率缩减(MCR²)目标

Δ R = 1 2 log ⁡ det ⁡ ( I + d ϵ 2 Z Z ⊤ ) − 1 2 ∑ k = 1 K n k n log ⁡ det ⁡ ( I + d ϵ 2 Z k Z k ⊤ ) \Delta R = \frac{1}{2}\log\det(\mathbf{I}+\frac{d}{\epsilon^2}\mathbf{Z}\mathbf{Z}^\top) - \frac{1}{2}\sum_{k=1}^K \frac{n_k}{n}\log\det(\mathbf{I}+\frac{d}{\epsilon^2}\mathbf{Z}_k\mathbf{Z}_k^\top) ΔR=21logdet(I+ϵ2dZZ)21k=1Knnklogdet(I+ϵ2dZkZk)

这个看似复杂的公式其实在做两件事:

  • 全局扩张:让所有token特征尽可能分散(第一项最大化)
  • 局部压缩:让同类token特征聚集(第二项最小化)
    MCR²目标可视化

2. 变分编码率缩减(VRR)

通过引入正交投影矩阵 U k \mathbf{U}_k Uk,将原问题转化为:
R var = ∑ k = 1 K ∑ i = 1 d f ( ( U k ⊤ Z k ) i i 2 ) R^{\text{var}} = \sum_{k=1}^K \sum_{i=1}^d f\left( (\mathbf{U}_k^\top \mathbf{Z}_k)_{ii}^2 \right) Rvar=k=1Ki=1df((UkZk)ii2)
其中 f ( x ) = log ⁡ ( 1 + x ) f(x)=\log(1+x) f(x)=log(1+x)。这使得每个注意力头只需维护一个低维统计量。
在这里插入图片描述

三步实现线性复杂度

  1. 特征投影:将d维特征映射到p维子空间(p << d)
  2. 统计门控:计算投影特征的二阶矩,生成抑制门控
  3. 残差连接:通过门控筛选重要特征方向
class TSSA(nn.Module):def __init__(self, dim, heads=8, dim_head=64):super().__init__()self.heads = headsself.scale = dim_head ** -0.5# 投影矩阵(学习不同统计视角)self.to_qkv = nn.Linear(dim, dim_head * heads * 3)  # 动态门控生成self.gate = nn.Sequential(nn.Linear(dim_head, 1),nn.Sigmoid())def forward(self, x):b, n, _ = x.shapeqkv = self.to_qkv(x).chunk(3, dim=-1)# 多头投影q, k, v = map(lambda t: t.view(b, n, self.heads, -1).transpose(1,2), qkv)# 统计量计算(核心创新)stats = torch.einsum('bhid,bhjd->bhij', q, k).mean(dim=-1)  # O(n)gate = self.gate(stats)  # 基于统计量的动态门控# 门控特征聚合out = torch.einsum('bhij,bhjd->bhid', gate, v)return out.transpose(1,2).reshape(b, n, -1)

四、性能实测:效率与精度的双杀

1. 计算效率对比

模型序列长度内存占用(MB)推理时间(ms)
Transformer409612.8342
ToST40960.628

2. 视觉任务表现

在ImageNet-1k上,ToST-Small以22.6M参数达到77.9% Top-1准确率,媲美ViT-Base(86.6M参数,79.8%),但计算量减少90%。

在这里插入图片描述

3. 长序列建模

在Long-Range Arena基准测试中,ToST在Path-X任务(16k长度)上以69.4%准确率超越Performer(77.0%),显存占用仅为1/10。

五、实战:用ToST构建高效语言模型

from torch import nn
import torchclass ToSTBlock(nn.Module):def __init__(self, dim, heads=8):super().__init__()self.attn = TSSA(dim, heads=heads)self.mlp = nn.Sequential(nn.Linear(dim, 4*dim),nn.GELU(),nn.Linear(4*dim, dim))self.norm1 = nn.LayerNorm(dim)self.norm2 = nn.LayerNorm(dim)def forward(self, x):x = x + self.attn(self.norm1(x))x = x + self.mlp(self.norm2(x))return xclass ToST(nn.Module):def __init__(self, num_layers=12, dim=768, heads=12):super().__init__()self.layers = nn.ModuleList([ToSTBlock(dim, heads) for _ in range(num_layers)])def forward(self, x):for layer in self.layers:x = layer(x)return x# 示例:处理512 token的文本序列
model = ToST()
x = torch.randn(1, 512, 768)  # (batch, seq_len, dim)
print(model(x).shape)  # torch.Size([1, 512, 768])

关键优化技巧

  1. 动态门控量化:将统计门控转换为8位整数计算
  2. 内存复用:在投影阶段共享中间结果
  3. 混合精度训练:使用FP16存储统计矩阵

六、ToST的蝴蝶效应:AI未来的五大变革

  1. 大模型平民化
    7B参数的ToST在单张3090显卡上可处理32k长度文本,成本降低10倍

  2. 实时视频理解
    处理1080P视频(每帧产生2304个token)时,延迟从3.2秒降至0.3秒

  3. 科学计算革命
    在蛋白质结构预测中,对10k氨基酸序列的处理时间从小时级缩短到分钟级

  4. 边缘智能爆发
    在Jetson Nano等嵌入式设备上实现实时多模态推理

  5. 理论突破
    为理解神经网络中的信息压缩提供了新的数学框架
    在这里插入图片描述

七、挑战与展望

尽管ToST展现了巨大潜力,仍需解决:

  • 统计偏差累积:长序列中统计误差的传播问题
  • 多模态适配:如何统一视觉与语言的统计特征
  • 动态序列处理:流式输入下的增量统计计算

马毅教授团队表示,下一步将探索:

# 伪代码:动态统计量更新
class StreamingTSSA:def update(self, new_token):self.stats = self.momentum * self.stats + (1 - self.momentum) * new_token**2self.gate = 1 / (1 + self.stats)return self.gate * new_token

这场由ToST引发的效率革命才刚刚开始。当注意力机制挣脱O(n²)的枷锁,AI模型的边界将重新定义——也许不久后,我们能在手机端运行万亿参数的智能体,而这,正是ToST带给我们的最大启示。


绑定的资源为本篇论文的原文,当然你也可以通过以下网站了解更多关于 ToST 的故事。

论文标题:Token Statistics Transformer: Linear-Time Attention via Variational Rate Reduction论文地址:https://arxiv.org/abs/2412.17810
项目主页:https://robinwu218.github.io/ToST/
开源地址:https://github.com/RobinWu218/ToST

http://www.ds6.com.cn/news/25436.html

相关文章:

  • 镇江网站建设优化公司seo
  • phpcms v9做网站优化公司网站
  • 渭南网站制作学校如何创建一个网页
  • 中国建设银行网站上不去seo技术306
  • 剑三代售网站怎么做西安网站建设优化
  • 响应式网站怎么做mip营销策划方案内容
  • 网站配色案例中国舆情观察网
  • WordPress电影主题MIBTseo顾问张智伟
  • 国内做交互网站盐城seo排名
  • 网站建设与管理出来工资搜索关键词优化服务
  • 站酷设计网站怎样下载图片品牌推广与传播方案
  • 郑州电子商务网站建设百度知道提问
  • 建设个定制网站需要多少钱免费关键词排名优化
  • 电子商务网站后台核心管理网站开发技术有哪些
  • 珠海网站建设策划广告媒体资源平台
  • 南京手机网站设计哪里专业百度一下百度搜索首页
  • 石首做网站的公司优化设计三年级上册答案
  • 做网站用的hu软件网站推广计划书范文500字
  • 网络下载的网站模板能直接上传到虚拟主机站长字体
  • 做企业规划的网站精准客户信息一条多少钱
  • 哪家做网站最便宜seo快速工具
  • 做暖暖欧美网站百度seo排名优化软件
  • 公司网站首页大图怎么做优化的定义
  • 做网站购买模板百度手游排行榜
  • 政府网站建设问题与对策产品网络推广
  • 温州编程网站网络营销策略分析论文
  • 农村小学校园网站建设方案简单的html网页制作
  • 宝鸡市网站建设电商平台网站
  • 如何建设网站方便后期维护千锋教育官方网
  • 服务器架设国外做违法网站国内最新消息新闻