本研究では、文書画像に複数の文書が含まれる場合でも、それぞれの文書の解析結果を区別して出力できる文書解析モデル「CREPE」を提案した。従来の文書解析モデルは単一の文書を前提としていたため、複数文書が含まれる画像を入力すると解析結果が混同してしまうという課題があった。
CREPEでは、文書ごとの解析結果を区別するために、特殊トークン「
実験の結果、CREPEは単一文書の解析精度とほぼ変わらずに、複数文書を一括処理できることが示された。さらに、文書内の文字列の位置座標も同時に出力できることを確認した。この座標情報は、文書内の機密情報のマスキングや人手検証プロセスなど、様々なドキュメントAIアプリケーションで活用できる。
Egy másik nyelvre
a forrásanyagból
arxiv.org
Mélyebb kérdések