大连做网站企业公司官网优化方案
1、clip文章中改进点
图像编码器image encoder:
- 将全局平均池化层替换为注意力池化机制。注意力池化机制:通过一个单层的“transformer式”多头QKV注意力,其中查询query是基于图像的全局平均池表示。
- 改进VIT(Vision Transformer):在transformer之前对 combined patch 和 position embeddings添加了额外的层归一化,并使用稍微不同的初始化方案。
文本编码器text encoder
训练过程改进点:使用混精度训练
关于优化模型训练的过程可以参考这篇论文:How to train really large models on many GPUs?
2、上采样:
- 放大原数据,数据插值;
- 放大原图像,从而可以显示在更高分辨率的显示设备上;
- 常见的方法有双线性插值、反卷积、反池化。
- 应用:图像放大:几乎都采用内插值的方法,在原有图像像素的基础上在像素点之间采用合适的插值算法插入新元素。
3、下采样:
- 降采样,缩小图像,就是池化
- 目的:降低特征的维度并保留有效信息,一定程度上避免过拟合,同时也保持旋转、平移和伸缩不变性,增大感受野并提取多尺度特征
- 采样的过程就类似平均池化和最大池化
4、embedding层
是一种将离散输入(如单词、字符、用户ID等)转换为连续、密集向量表示的方法,旨在捕捉输入元素之间的语义和上下文关系。