DC娱乐网

多模态入门之Vision Transformer

2026-02-12 05:16:14 奔跑的跳跳科技

今天来学ViT，可以看做是现在众多视觉-语言大模型的基石技术。其核心思想就是——把图像当作一串tokens来处理。

本文目录如下：
1️⃣从CNN到ViT
2️⃣ViT的模型架构
3️⃣代码解析
4️⃣模型训练流程及实验结论

视频推荐看up主bryanyzhu的讲解，学术水平很高，讲解深入浅出的同时兼顾论文写作技巧。

阅读：0 点赞：0

多模态入门之Vision Transformer

热门分类