专业的编程技术博客社区

网站首页 > 博客文章 正文

开源的图像分类模型(二)

baijin 2025-02-13 11:01:21 博客文章 9 ℃ 0 评论

基于注意力机制和Transformer的模型

Vision Transformer (ViT) (2020)

  • 特点:将Transformer架构引入图像分类任务,将图像分割成小块(Patch),并使用自注意力机制进行特征提取。
  • 结构:类似于NLP中的Transformer,使用多头自注意力机制处理图像块。
  • 论文名称: An Image Is Worth 16x16 Words: Transformers For Image Recognition At Scale
  • 论文链接:https://arxiv.org/abs/2010.11929

DeiT (Data-efficient Image Transformer) (2021)

  • 特点:在ViT的基础上,通过引入蒸馏(Distillation)和更高效的训练策略,提升了模型的训练效率和性能。
  • 结构:与ViT类似,但加入了教师模型进行知识蒸馏。
  • Github:https://github.com/facebookresearch/deit

Swin Transformer (2021)

  • 特点:引入了层次化的结构(Hierarchical Structure)和移动窗口(Shifted Windows)机制,使得Transformer能够处理不同尺度的特征。
  • 结构:通过分层处理图像块,并在不同层次上使用不同的窗口大小,提升了模型的表达能力。
  • 论文名称: Swin Transformer: Hierarchical Vision Transformer using Shifted Windows
  • 论文链接:https://arxiv.org/pdf/2103.14030

混合模型

ConvNeXt (2022)

  • 特点:结合了卷积神经网络和Transformer的优点,使用了类似ResNet的结构,但引入了许多Transformer中的设计元素,如更大的卷积核、层归一化等。
  • 结构:在ResNet的基础上,进行了多方面的改进,如使用更大的卷积核、引入层归一化等。

EfficientNet (2019)

  • 特点:通过复合缩放(Compound Scaling)方法,同时调整网络的深度、宽度和分辨率,实现了更高效的模型设计。
  • 结构:使用MBConv模块(Mobile Inverted Bottleneck Convolution),并通过复合缩放方法进行扩展。

当前SOTA模型

EfficientNetV2 (2021)

  • 特点:在EfficientNet的基础上,进一步优化了模型的训练速度和性能,引入了渐进式学习(Progressive Learning)和自适应缩放(Adaptive Scaling)。
  • 结构:更高效的MBConv模块,更快的训练速度。

NFNet (Normalizer-Free Networks) (2021)

  • 特点:不使用批量归一化(Batch Normalization),通过改进的残差块和正则化技术,实现了更高的性能和更稳定的训练。
  • 结构:使用改进的残差块和正则化技术,提升了模型的表达能力。

Vision Transformer (ViT) 的改进版本

  • 特点:如 DeiT, Swin Transformer 等,通过引入更高效的训练策略和层次化结构,进一步提升了Transformer在图像分类任务中的性能。

总结

图像分类领域的SOTA模型不断演进,从经典的卷积神经网络到基于Transformer的架构,再到混合模型,每一种新模型都在提升性能的同时,带来了新的挑战和机遇。

Tags:

本文暂时没有评论,来添加一个吧(●'◡'●)

欢迎 发表评论:

最近发表
标签列表