核心概念
大規模言語モデルを用いた構造予測では、推論アルゴリズムを組み合わせることで、構造的に整合性のある出力を生成できる。
要約
本論文は、大規模言語モデルを用いた構造予測タスクにおいて、推論アルゴリズムを組み合わせることで、構造的に整合性のある出力を生成する手法を提案している。
具体的には以下の通り:
構造予測タスクを構成要素の予測に分解し、大規模言語モデルにプロンプトを与えて各要素を予測する。
予測された構成要素に対して、構造的制約を満たすように推論アルゴリズムを適用し、整合性のある構造を生成する。
この手法を言語理解タスクの2つ(言語的構造ラベリング、共参照解析)に適用し、実験を行った。その結果、推論を組み合わせることで、構造的に整合性のある出力が得られ、かつ全体的なタスク性能も向上することが示された。
特に以下の点が明らかになった:
大規模言語モデルのみでは、構造的に整合性のない出力を生成してしまう可能性がある
推論アルゴリズムを組み合わせることで、構造的制約を満たす整合性のある出力が得られる
推論を組み合わせることで、ゼロショットおよびフューショットの設定でも良好な性能が得られる
統計
言語的構造ラベリングタスクでは、構造的に整合性のない出力が34%にも及んでいた。
共参照解析タスクでは、無制約モデルの出力の整合性が最大で86.75%と低かった。