DC娱乐网

多模态入门之Vision Transformer

今天来学ViT,可以看做是现在众多视觉-语言大模型的基石技术。其核心思想就是——把图像当作一串tokens来处理。 本文目录如下: 1️⃣从CNN到ViT 2️⃣ViT的模型架构 3️⃣代码解析 4️⃣模型训练流程及实验结论 视频推荐看up主bryanyzhu的讲解,学术水平很高,讲解深入浅出的同时兼顾论文写作技巧。