Vision Transformer (ViT) 是目前计算机视觉 (CV) 领域影响力最大的一项工作,因为他挑战了自从 2012 年 AlexNet 提出以来的 CNN 模型在 CV 领域的绝对统治地位。实验表明,如果能够在足够多的数据集上做预训练,那么即使不使用 CNN 也能达到同等甚至更高的精度。
ViT 不仅在 CV 领域挖了一个大坑,而且还打破了 CV 和 NLP 在模型上的壁垒,所以在多模态领域也挖了一个大坑。于是,在 2020 年 10 月本文在 arXiv 上公开以后,基于 ViT 的工作层出不穷。毫无疑问,ViT 标志着 Transformer 模型正式杀入 CV 界,也标志着 Transformer 模型正式成为继 MLP、CNN、RNN 之后的一种新的模型范式。
原文链接