Core Concepts
RanLayNetデータセットを使用することで、ドキュメントレイアウトの多様性に適応し、汎用性の高いモデルを開発できる。
Abstract
本研究では、RanLayNetと呼ばれる新しい合成ドキュメントデータセットを紹介する。このデータセットには、レイアウト要素の位置、範囲、タイプを示す自動ラベルが付けられている。
RanLayNetの主な目的は、多様なドキュメント形式に対応可能な堅牢で適応性の高いモデルを開発することである。
実験の結果、RanLayNetで事前に訓練したモデルは、実際のドキュメントのみで訓練したモデルよりも優れた性能を示すことが明らかになった。
さらに、PubLayNetとIIIT-AR-13Kデータセットを使ってファインチューニングしたモデルと比較したところ、RanLayNetで訓練したモデルがDocLaynetデータセットでより良い結果を出すことがわかった。
特に、科学文書ドメインのTABLEクラスでは0.398と0.588のmAP95スコアを達成するなど、優れた性能を発揮した。
Stats
RanLayNetデータセットには、Text 95,227個、Title 45,306個、List 23,090個、Table 22,146個、Figure 23,493個のラベルが付けられている。
RanLayNetで事前訓練したYOLOv8モデルは、PubLayNetとIIIT-AR-13Kで事前訓練したモデルと比べ、DocLaynetデータセットのTABLEクラスで優れた性能を示した。
Quotes
"RanLayNetデータセットを使用することで、ドキュメントレイアウトの多様性に適応し、汎用性の高いモデルを開発できる。"
"RanLayNetで事前訓練したモデルは、科学文書ドメインのTABLEクラスで0.398と0.588のmAP95スコアを達成するなど、優れた性能を発揮した。"