Core Concepts
大規模言語モデルの出力は信頼性に課題があるため、記号的参照を用いることで、人手による検証を容易にする手法を提案する。
Abstract
本研究では、記号的参照を用いた文章生成(SymGen)を提案している。SymGenでは、構造化データ(例えばJSONフォーマット)を入力として、言語モデルに対して明示的な記号的参照を含む文章を生成させる。これにより、生成された文章の各部分がデータのどの要素に基づいているかを明示的に示すことができる。
実験の結果、SymGenは以下のことが示された:
通常の言語モデルと同等の流暢性と正確性を持つ文章を生成できる
生成された記号的参照は正確で、単純な正規表現ベースの手法では実現できない
人間評価実験では、記号的参照により文章の検証が容易になり、検証時間が20%短縮された
さらに、SymGenは質問応答やマスタマス推論などの他のタスクにも適用可能であることが示された。
全体として、SymGenは大規模言語モデルの出力の信頼性を高める有効な手法であると考えられる。
Stats
生成された文章の記号的参照の正確性は、GPT-3.5-16Kでは99.77%、GPT-4-32Kでは99.52%であった。
一方、単純な正規表現ベースの手法では、正確性はそれぞれ35.40%、46.10%にとどまった。
Quotes
"The annotations help tremendously"
"The annotations were nice and definitely helped"
"I could still compare the data without annotations it just took longer to find each piece of data"