Core Concepts
SELF-CHECKERは、大規模言語モデルの出力の事実性を評価するためのプラグアンドプレイフレームワークである。主張の抽出、検索クエリの生成、証拠文の選択、最終的な判断の提示といった一連の処理を行う。
Abstract
SELF-CHECKERは、大規模言語モデルの出力の事実性を評価するためのフレームワークである。
入力テキストから主張を抽出する「主張抽出モジュール」
主張を検証するための検索クエリを生成する「クエリ生成モジュール」
検索結果から主張を支持または否定する証拠文を選択する「証拠選択モジュール」
収集した証拠に基づいて主張の真偽を判断する「判断モジュール」
という4つのモジュールから構成される。
これらのモジュールは大規模言語モデルを活用して実装されており、事前の学習を必要としない。
また、BINGCHECKデータセットを構築し、大規模言語モデルの出力に特化した事実検証タスクのベンチマークを提供している。
実験の結果、SELF-CHECKERは既存の手法と比較して一定の性能を示したが、さらなる改善の余地があることが明らかになった。
Stats
主張の真偽を判断する際、証拠文の選択が不十分な場合がある。
一部の主張については、証拠が古く最新の情報と矛盾する可能性がある。