核心概念
本文提出了一種名為語義均衡分群(SEC)的新方法,透過基於全局語義關聯性對視覺詞彙進行分群,從而提高視覺Transformer(ViT)的效率和效能。
Fan, Q., Huang, H., Chen, M., & He, R. (2024). Semantic Equitable Clustering: A Simple and Effective Strategy for Clustering Vision Tokens. arXiv preprint arXiv:2405.13337v2.
本研究旨在解決視覺Transformer(ViT)中全局注意力機制計算複雜度高的問題,提出一種基於語義資訊的視覺詞彙分群方法,以提高模型效率和效能。