Conceitos essenciais
大規模な教師あり学習モデルの訓練には大量のラベル付きデータが必要だが、そのようなデータの収集は困難である。本研究では、テキストベースの画像生成モデルを活用して、既存のデータセットを効果的に拡張する手法を提案する。
Resumo
本研究では、テキストベースの画像生成モデルを活用したデータ拡張手法を提案している。具体的には以下の通りである:
- キャプションデータの前処理
- BERT言語モデルを使ってキャプション中の単語とラベルクラスの対応関係を特定する
- これにより、キャプションの単語を適切に置き換えることができる
- キャプション拡張手法
- プレフィックス追加: キャプションの先頭に定型句を追加
- サフィックス追加: キャプションの末尾に定型句を追加
- 置換: 同一カテゴリ内の単語を置き換え
- 複合: 上記3手法を組み合わせて適用
- 画像生成
- 拡張されたキャプションを入力として、Stable Diffusionモデルを使って対応する画像を生成
- データ拡張
- 生成された画像を元のデータセットに追加して、分類モデルの訓練に活用
実験の結果、提案手法は既存の手法と比べて、同ドメインおよび異ドメインの分類精度が向上することが示された。今後の課題としては、より多様なデータセットでの検証や、画像生成モデルのファインチューニングなどが考えられる。
Estatísticas
画像分類タスクにおいて、提案手法は既存手法と比べて以下の性能を示した:
同ドメイン(COCO)のmAP: 0.564 (従来手法: 0.529-0.558)
異ドメイン(PASCAL VOC)のmAP: 0.702 (従来手法: 0.652-0.675)