本研究では、ラベル付きデータが限定的な状況でのドキュメントオブジェクト(テーブルやテキスト)の正確かつ効率的な検出に取り組む。この手法では、教師モデルと学生モデルのネットワークを活用し、相互に更新しながら学習を行う。従来の変換器ベースの研究では、注意機構の改善や提案オブジェクトの増加に焦点を当ててきたが、これらはトレーニング時間とパフォーマンスに影響を与えていた。
本手法では、Non-Maximal Suppression(NMS)を必要とせず、オブジェクトクエリーと画像特徴の照合に焦点を当てる。SAM-DETRを半教師あり学習に適用する新しいアプローチにより、オブジェクトクエリーとターゲット特徴の整合性を高め、複雑なレイアウトのドキュメントにおけるオブジェクト検出の精度を大幅に向上させることができる。
全体として、本手法は限定的なラベル付きデータを活用しつつ、ドキュメント分析の精度を向上させることができる。
Naar een andere taal
vanuit de broninhoud
arxiv.org
Belangrijkste Inzichten Gedestilleerd Uit
by Tahira Shehz... om arxiv.org 05-02-2024
https://arxiv.org/pdf/2405.00187.pdfDiepere vragen