Core Concepts
大規模言語モデルを使用して、異なるドメインのテーブルから情報を効率的に抽出できることを示す。
Abstract
論文では、大規模言語モデルが異種テーブルから構造化されたレコードに情報を抽出する新しいタスクである「スキーマ駆動型情報抽出」を紹介。
ベンチマークは、機械学習論文、化学文献、材料科学ジャーナル、ウェブページのテーブルから成り立ち、APIベースの言語モデルやオープンソースモデルの性能を評価。
APIベースのモデルは優れた性能を示す一方で、オープンソースモデルも特定領域で有望な結果を示す。
詳細な実験と分析により、効率的なコンパクトモデルの作成可能性が確認される。
Abstract
大規模言語モデルが異種テーブルから情報を抽出する新しいタスク「スキーマ駆動型情報抽出」に焦点。
ベンチマークは機械学習論文、化学文献、材料科学ジャーナル、ウェブページのテーブルから成り立ち。
APIベースとオープンソース言語モデルの性能比較により競争力ある結果が得られることが示される。
Introduction
多くのデータが科学文献やウェブページ内のテーブルに閉じ込められており、その構造化されていない形式へのアクセスが困難。
スキーマ駆動型情報抽出は人間が作成したスキーマに従って表形式データを構造化されたレコードに変換する新しいタスク。
Data Extraction
"F1" スコアは74.2〜96.1まで達成可能であり、高い性能を示す。
Stats
大規模言語モデルは74.2〜96.1までのF1スコアを達成することが示されています。