核心概念
本稿では、Retriever-Dictionary (RD) モジュールを YOLO に導入することで、データセット全体の情報を活用し、物体検出の精度を大幅に向上させる手法を提案する。
要約
Retriever-Dictionary (RD) モジュールを用いた YOLO の精度向上
本稿では、Retriever-Dictionary (RD) モジュールを導入することで、YOLO ベースの物体検出モデルの精度を向上させる新しい手法が提案されています。
従来の物体検出モデル、特に CNN や Transformer ベースのモデルは、入力画像のみに焦点を当て、データセット全体の情報を十分に活用できていませんでした。
RD モジュールは、Retriever と Dictionary の2つの主要コンポーネントで構成されています。
Dictionary: データセット全体の情報を圧縮して保持する知識ベース。画像エンコーダを用いてデータセット全体を埋め込み、代表的なベクトルを k-means 法で選択することで構築されます。
Retriever: 入力画像の特徴量に基づいて、Dictionary から関連性の高い情報を検索します。具体的には、入力特徴量に対して各アトムの係数を生成し、正規化された係数を重みとして各アトムを選択することで、関連性の高い情報を取得します。