开源的图像分类模型(二)

baijin 2025-02-13 11:01:21 博客文章 13 ℃ 0 评论

基于注意力机制和Transformer的模型

Vision Transformer (ViT) (2020)

特点：将Transformer架构引入图像分类任务，将图像分割成小块（Patch），并使用自注意力机制进行特征提取。
结构：类似于NLP中的Transformer，使用多头自注意力机制处理图像块。
论文名称： An Image Is Worth 16x16 Words: Transformers For Image Recognition At Scale
论文链接：https://arxiv.org/abs/2010.11929

DeiT (Data-efficient Image Transformer) (2021)

Swin Transformer (2021)

特点：引入了层次化的结构（Hierarchical Structure）和移动窗口（Shifted Windows）机制，使得Transformer能够处理不同尺度的特征。
结构：通过分层处理图像块，并在不同层次上使用不同的窗口大小，提升了模型的表达能力。
论文名称： Swin Transformer: Hierarchical Vision Transformer using Shifted Windows
论文链接：https://arxiv.org/pdf/2103.14030

ConvNeXt (2022)

特点：结合了卷积神经网络和Transformer的优点，使用了类似ResNet的结构，但引入了许多Transformer中的设计元素，如更大的卷积核、层归一化等。
结构：在ResNet的基础上，进行了多方面的改进，如使用更大的卷积核、引入层归一化等。

EfficientNet (2019)

EfficientNetV2 (2021)

特点：在EfficientNet的基础上，进一步优化了模型的训练速度和性能，引入了渐进式学习（Progressive Learning）和自适应缩放（Adaptive Scaling）。
结构：更高效的MBConv模块，更快的训练速度。

NFNet (Normalizer-Free Networks) (2021)

Vision Transformer (ViT) 的改进版本

图像分类领域的SOTA模型不断演进，从经典的卷积神经网络到基于Transformer的架构，再到混合模型，每一种新模型都在提升性能的同时，带来了新的挑战和机遇。