Core Concepts
本研究は、SimCLR という対照学習手法の有効性を、ギリシャ文字認識の文脈で調査し、様々な拡張手法の影響を検討する。
Abstract
本研究は、ギリシャ文字認識タスクにおける SimCLR の有効性を評価することを目的としている。大規模な Alpub データセットを使ってSimCLRのバックボーンを事前学習し、その後小規模な ICDAR データセットでファインチューニングを行い、従来の教師あり学習モデルとの性能比較を行った。さらに、SimCLRのトレーニングパイプラインにおける重要な要素である、様々なデータ拡張手法の影響も検討した。
主な手法は以下の3つ:
交差エントロピー損失を用いたベースラインモデル
トリプレット損失を用いたモデル
SimCLRを用いたモデル
実験の結果、SimCLRはベースラインモデルに劣る性能しか示さなかった。交差エントロピー損失を用いたベースラインモデルが、SimCLRやトリプレット損失法よりも優れた性能を示した。この研究は、文字認識タスクにおける対照学習の限界を明らかにし、従来の教師あり学習モデルの有効性を強調するものである。SimCLRにおける切り抜き戦略が入力画像の意味的シフトを引き起こし、大量の事前学習データを使っても有効性が低下する可能性が示唆された。
Stats
本研究では、93種類のデータ拡張手法を検討した。
統計的t検定に基づき、上位4つの拡張手法を選定した。
Quotes
"SimCLRはベースラインモデルに劣る性能しか示さなかった。交差エントロピー損失を用いたベースラインモデルが、SimCLRやトリプレット損失法よりも優れた性能を示した。"
"SimCLRにおける切り抜き戦略が入力画像の意味的シフトを引き起こし、大量の事前学習データを使っても有効性が低下する可能性が示唆された。"