本研究は、ギリシャ文字認識タスクにおける SimCLR の有効性を評価することを目的としている。大規模な Alpub データセットを使ってSimCLRのバックボーンを事前学習し、その後小規模な ICDAR データセットでファインチューニングを行い、従来の教師あり学習モデルとの性能比較を行った。さらに、SimCLRのトレーニングパイプラインにおける重要な要素である、様々なデータ拡張手法の影響も検討した。
主な手法は以下の3つ:
実験の結果、SimCLRはベースラインモデルに劣る性能しか示さなかった。交差エントロピー損失を用いたベースラインモデルが、SimCLRやトリプレット損失法よりも優れた性能を示した。この研究は、文字認識タスクにおける対照学習の限界を明らかにし、従来の教師あり学習モデルの有効性を強調するものである。SimCLRにおける切り抜き戦略が入力画像の意味的シフトを引き起こし、大量の事前学習データを使っても有効性が低下する可能性が示唆された。
Sang ngôn ngữ khác
từ nội dung nguồn
arxiv.org
Thông tin chi tiết chính được chắt lọc từ
by Vedasri Nakk... lúc arxiv.org 09-17-2024
https://arxiv.org/pdf/2409.10156.pdfYêu cầu sâu hơn