Core Concepts
大言語モデルを使用して、(1)自然言語と命題論理・述語論理の言語の間の相互変換の演習と(2)非数学的な状況における簡単な議論の自然言語での記述の演習を自動的に修正するシステムを開発している。
Abstract
本論文では、大言語モデルを使用して初心者学生向けの(非)形式化演習と自然言語議論演習の自動修正システムを開発する取り組みについて説明する。
(1) 自動形式化
自然言語から形式論理への自動変換(自動形式化)は自然言語処理の課題であり、これまで文法ベースのアプローチや機械学習アプローチが検討されてきた。
本システムでは、OpenAIのGPT-3.5やGPT-4-Turboといった大言語モデルを使用して、自然言語から命題論理や述語論理への自動変換を行う。
制御自然言語(CNL)での入力に対しては良好な性能が得られるが、任意の自然言語文に対しては課題が残る。特に、論理的に矛盾した文や極端な仮想的状況に関する文の処理が難しい。
(2) 自動非形式化
形式論理の式を自然言語で表現する非形式化演習は、論理的正しさと表現の自然さの両面から評価が必要。
表現の自然さの評価は難しく、単純な長さ比較による指標を用いている。
論理的正しさの検証には自動定理証明器を使用し、論理的等価性を確認する。
(3) 自然言語議論演習
数学的議論だけでなく、日常的な状況での論理的議論の練習も重要。
自然言語で記述された議論を形式論理に変換し、論理的正しさを自動的に検証する。
全体として、本システムは実験段階にあり、大言語モデルの安定性や価格面での課題を克服する必要がある。今後、実際の教育現場での利用と評価を行う予定である。
Stats
命題論理の自動形式化では、GPT-4-Turboが57例中55例(96.5%)を正しく形式化した。一方、ローカルの大言語モデルの最良のものでは40例(69%)であった。
述語論理の自動形式化では、GPT-4-Turboが50例中46例(92%)を正しく形式化した。