Khái niệm cốt lõi
トークンチューリングマシンは、メモリを統合することで、ビジョントランスフォーマーよりも効率的かつ高精度なビジョンモデルを実現する。
Tóm tắt
本研究では、ビジョントランスフォーマー(ViT)とニューラルチューリングマシン(NTM)を融合したトークンチューリングマシン(ViTTM)を提案している。ViTTMは、プロセストークンとメモリトークンの2つのトークンストリームを持ち、メモリトークンを活用することで、ViTよりも効率的かつ高精度なビジョンモデルを実現する。
具体的な特徴は以下の通り:
- プロセストークンとメモリトークンの2つのトークンストリームを持つ
- メモリトークンを活用することで、プロセストークンの数を削減し、効率性を高める
- メモリトークンとプロセストークンの間でリード/ライト操作を行うことで、必要な情報を効率的に処理する
- ImageNet-1Kでは、ViT-Bと同等の精度(82.9%)を持ちながら、56%高速化(234.1ms)、2.4倍のFLOPS削減を実現
- ADE20Kのセマンティックセグメンテーションでは、ViT-Bと同等の精度(45.17 mIoU)を持ちながら、94%高速化(26.8 FPS)を実現
Thống kê
ViTTM-Bは、ViT-Bと比べて2.4倍のFLOPS削減を実現している
ViTTM-Bの推論時間は、ViT-Bの56%短い
Trích dẫn
"ViTTMは、メモリを統合することで、ViTよりも効率的かつ高精度なビジョンモデルを実現する。"
"ViTTM-Bは、ViT-Bと同等の精度を持ちながら、56%高速化、2.4倍のFLOPS削減を実現している。"
"ViTTM-Bは、ViT-Bと同等の精度を持ちながら、94%高速化を実現している。"