Core Concepts
ビジョントランスフォーマーを活用した新しい交通標識認識手法を提案し、従来手法を大幅に上回る性能を実現した。
Abstract
本研究は、ビジョントランスフォーマーを活用した革新的な交通標識認識(TSR)手法を紹介している。従来のTSRアプローチは手動特徴抽出に依存しており、労力と時間がかかる問題があった。また、色彩や形状に基づく手法には、照明条件の変化や部分遮蔽などの課題がある。
本研究では、3種類のビジョントランスフォーマー(PVT、TNT、LNL)と6種類のCNNモデル(AlexNet、ResNet、VGG16、MobileNet、EfficientNet、GoogleNet)をベースラインとして評価した。さらに、進化アルゴリズム(EA)とトランスフォーマーを融合したパイラミッドEATFormerアーキテクチャを提案した。EATブロックは、Feed-Forward Network(FFN)、Global and Local Interaction(GLI)、Multi-Scale Region Aggregation(MSRA)の3つのモジュールから構成され、相互作用、個別情報、マルチスケール情報を効果的にキャプチャする。また、不規則な領域をダイナミックにモデル化するModulated Deformable MSA(MD-MSA)モジュールを導入した。
GTSRB and BelgiumTSデータセットでの実験結果は、提案手法が予測速度と精度の両面で大幅な向上を示していることを明らかにした。本研究は、ビジョントランスフォーマーがトラフィック標識分類に大きな可能性を秘めていることを示しており、高精度で信頼性の高いTSRアルゴリズムの開発に貢献する。
Stats
提案モデルはGTSRBデータセットで98.41%の精度を達成し、従来手法を1.33%~1.58%上回った。
提案モデルはBelgiumTSデータセットで92.16%の精度を達成し、従来手法を7.51%~21.45%上回った。
提案モデルはパラメータ数が9.61Mと少なく、推論時間も74.34msと高速である。
Quotes
"ビジョントランスフォーマーは交通標識分類に大きな可能性を秘めている。"
"提案手法は高精度で信頼性の高いTSRアルゴリズムの開発に貢献する。"