基于注意力机制和Transformer的模型
Vision Transformer (ViT) (2020)
- 特点:将Transformer架构引入图像分类任务,将图像分割成小块(Patch),并使用自注意力机制进行特征提取。
- 结构:类似于NLP中的Transformer,使用多头自注意力机制处理图像块。
- 论文名称: An Image Is Worth 16x16 Words: Transformers For Image Recognition At Scale
- 论文链接:https://arxiv.org/abs/2010.11929
DeiT (Data-efficient Image Transformer) (2021)
- 特点:在ViT的基础上,通过引入蒸馏(Distillation)和更高效的训练策略,提升了模型的训练效率和性能。
- 结构:与ViT类似,但加入了教师模型进行知识蒸馏。
- Github:https://github.com/facebookresearch/deit
Swin Transformer (2021)
- 特点:引入了层次化的结构(Hierarchical Structure)和移动窗口(Shifted Windows)机制,使得Transformer能够处理不同尺度的特征。
- 结构:通过分层处理图像块,并在不同层次上使用不同的窗口大小,提升了模型的表达能力。
- 论文名称: Swin Transformer: Hierarchical Vision Transformer using Shifted Windows
- 论文链接:https://arxiv.org/pdf/2103.14030
混合模型
ConvNeXt (2022)
- 特点:结合了卷积神经网络和Transformer的优点,使用了类似ResNet的结构,但引入了许多Transformer中的设计元素,如更大的卷积核、层归一化等。
- 结构:在ResNet的基础上,进行了多方面的改进,如使用更大的卷积核、引入层归一化等。
EfficientNet (2019)
- 特点:通过复合缩放(Compound Scaling)方法,同时调整网络的深度、宽度和分辨率,实现了更高效的模型设计。
- 结构:使用MBConv模块(Mobile Inverted Bottleneck Convolution),并通过复合缩放方法进行扩展。
当前SOTA模型
EfficientNetV2 (2021)
- 特点:在EfficientNet的基础上,进一步优化了模型的训练速度和性能,引入了渐进式学习(Progressive Learning)和自适应缩放(Adaptive Scaling)。
- 结构:更高效的MBConv模块,更快的训练速度。
NFNet (Normalizer-Free Networks) (2021)
- 特点:不使用批量归一化(Batch Normalization),通过改进的残差块和正则化技术,实现了更高的性能和更稳定的训练。
- 结构:使用改进的残差块和正则化技术,提升了模型的表达能力。
Vision Transformer (ViT) 的改进版本
- 特点:如 DeiT, Swin Transformer 等,通过引入更高效的训练策略和层次化结构,进一步提升了Transformer在图像分类任务中的性能。
总结
图像分类领域的SOTA模型不断演进,从经典的卷积神经网络到基于Transformer的架构,再到混合模型,每一种新模型都在提升性能的同时,带来了新的挑战和机遇。
本文暂时没有评论,来添加一个吧(●'◡'●)