Conceptos Básicos
LLMsは現在、自然言語から形式仕様への変換や、形式仕様の自然言語による解釈において十分な性能を発揮できていない。
Resumen
本論文では、LLMsの形式仕様の翻訳と解釈の能力を自動的に評価する手法を提案する。
- 形式文法を用いて自動的にデータセットを生成し、LLMsの翻訳・解釈精度を評価する。
- 2つのLLMコピーを使い、自然言語と形式仕様の相互変換を行い、外部のVerifierを用いて変換精度を検証する。
- 実験の結果、現状のSOTAなLLMsでは、単純な命題論理や一階述語論理の形式仕様の翻訳・解釈において十分な性能を発揮できていないことが示された。
- LLMsは自然言語と形式仕様の相互変換において、括弧の扱いや量化子の導入など、多くの課題を抱えていることが明らかになった。
Estadísticas
命題論理の実験では、演算子(∧, ∨)の数が増えるにつれ、LLMsの精度が大幅に低下した。
一階述語論理の実験では、演算子(¬, ∧, ∨)の数が1つでも、LLMsの精度は80%以下であった。
Citas
"LLMsは現在、自然言語から形式仕様への変換や、形式仕様の自然言語による解釈において十分な性能を発揮できていない。"
"LLMsは自然言語と形式仕様の相互変換において、括弧の扱いや量化子の導入など、多くの課題を抱えている。"