Core Concepts
AIモデルDonutとOpenAI GPT-3.5 Turboを活用し、文書索引の自動化における画期的な成果を達成。
Abstract
概要:
長大で複雑な仕様書は、手作業による構造化情報の抽出が主要なボトルネック。
DonutとGPT-3.5 Turboを活用した新しいアプローチにより、仕様書から目次を取得しJSONデータに構造化。
Donutは85%、GPT-3.5 Turboは89%の効率で目次を整理することに成功。
AIの潜在能力を示すこの画期的な成果は、さまざまな文書タイプで情報抽出タスクを自動化し、効率性向上と業界全体で重要なリソースを解放する。
1. 導入:
AIによる情報抽出の重要性と手作業に伴う時間とコスト。
PDFファイルやMicrosoft Wordドキュメントなどの電子文書がビジネスや技術分野で不可欠。
2. 関連研究:
OCRフリーVDUモデルへの需要。OCR精度への課題。
大規模言語モデル(LLM)の利点と挑戦。BERTやMegatronなど。
3. 方法論:
データ準備段階でDonutモデルおよびGPT-3.5 Turboモデルを使用してトレーニング。
ToCページから見出し番号やタイトルを抽出しJSONファイルに保存。
4. 評価:
分類モデルは精度で評価。ToC内の構造化データ生成の正確性も同様に評価。
5. 結果と議論:
モデルFine-tuning後、20件のテストドキュメントで82.2%の全体的精度達成。
Heading数およびタイトルは90%、Subheading数およびタイトルはそれぞれ88%および79%。
6. 結論:
大規模言語モデルやコンピュータビジョンは建設仕様書など大規模ドキュメントを自律的に再配置・分類するための優れたツール。
7. 将来展望:
より広範囲かつ包括的なデータ収集や高度な機械学習アルゴリズム採用による予測能力向上。
Stats
AIモデルDonutが85%、GPT-3.5 Turboが89%でToCsを効果的に整理することに成功。