Core Concepts
大規模言語モデルは、人間との対話や協調システムから生じる固有のエラーを含む命令に対して、十分な耐性を持っていない。
Abstract
本研究は、大規模言語モデル(LLM)の雑音付きの命令に対する耐性を調査しています。具体的には以下の5つの一般的な雑音タイプを検討しています:
音声認識(ASR)エラー
光学文字認識(OCR)エラー
文法的ミス
綴りのエラー
関連性のない内容
研究の結果、LLMは特定のタイプの雑音に対してある程度の耐性を示しますが、全体的な性能は大幅に低下することが明らかになりました。これは、LLMの実用性を高めるためには、モデルの耐性を向上させることが重要であることを示唆しています。
さらに、本研究では、LLMを使ってノイズの影響を軽減する「再通過」戦略を評価しました。その結果、オープンソースのLLMでは、特に高レベルのノイズに対して、命令を効果的に修正することが大きな課題であることが明らかになりました。
Stats
40%以上のユーザー入力にタイポグラフィックエラー、文法的ミス、または関連性のない内容が含まれている。
ASRエラーが増加するにつれ、LLMの性能が最大8.2%低下する。
OCRエラーが増加するにつれ、LLMの性能が最大8.2%低下する。
文法的ミスが増加しても、LLMの性能低下は比較的小さい(最大5.3%)。
タイポグラフィックエラーが増加すると、LLMの性能が最大8.2%低下する。
Quotes
"大規模言語モデルは、人間との対話や協調システムから生じる固有のエラーを含む命令に対して、十分な耐性を持っていない。"
"ノイズの影響を軽減するための「再通過」戦略を評価した結果、オープンソースのLLMでは、特に高レベルのノイズに対して、命令を効果的に修正することが大きな課題であることが明らかになった。"