核心概念
物体検出タスクのトランスフォーマーアーキテクチャにおいて、入力の注意クラスタリングをエントロピーベースで行うことで、計算リソースを大幅に削減しつつ、検出精度を維持できる。
要約
本研究では、物体検出タスクのトランスフォーマーモデルにおいて、入力の注意クラスタリングをエントロピーベースで行うENACTモジュールを提案している。
具体的には以下の通り:
- 入力特徴マップの各ピクセルのエントロピー(自己情報量)を学習可能な確率密度関数から計算する。
- エントロピー信号の二次微分を用いて、情報量の増減が大きい領域を特定し、その領域ごとにソフトマックス関数を適用して重み付けを行う。
- 重み付けされた特徴ベクトルを領域ごとに加算することで、クラスタリングされた入力を生成する。
提案手法を3つの物体検出トランスフォーマーモデル(DETR、Anchor DETR、Conditional DETR)に適用した結果、GPU メモリ使用量を20-40%、学習時間を5-15%削減できることを示した。一方で、検出精度はわずかに低下するものの(1.5%程度)、依然として既存の物体検出手法を上回る性能を達成できている。
統計
物体検出タスクにおいて、提案手法を適用することで、GPU メモリ使用量を20-40%削減できる。
学習時間も5-15%短縮できる。
引用
物体検出タスクのトランスフォーマーモデルにおいて、入力の注意クラスタリングをエントロピーベースで行うことで、計算リソースを大幅に削減しつつ、検出精度を維持できる。