מושגי ליבה
大規模言語モデルは、テキストのみでは人間の音声的な不確実性を捉えきれないが、音声的特徴を統合することで、より信頼性の高い意思決定が可能になる。
תקציר
本研究では、大規模言語モデル(LLM)の意思決定を改善するために、音声的特徴の活用を提案している。LLMは、テキストベースの対話では優れた性能を発揮するが、音声的な微妙なニュアンスを捉えるのが苦手である。そこで、Beyond Textでは、音声の転写に加えて、音声の韻律的特徴(ピッチ、音量、発話時間)を分析し、LLMの意思決定に活用する。
具体的には、まず音声を文字起こしし、そこに含まれる不確実性のサインを検出する。次に、音声の韻律的特徴の変化を分析し、人間の不確実性を示す手がかりを得る。これらの情報を組み合わせて、LLMに入力することで、より適切な次の行動を選択できるようになる。
実験では、人間が音声で指示した経路案内タスクを用いて評価を行った。Beyond Textは、既存のLLMに比べて22.16%から48.30%高い正解率を達成した。また、敵対的攻撃に対しても、従来のLLMよりも22.44%低い性能低下率を示した。これらの結果から、音声的特徴の活用が、LLMの意思決定の信頼性と頑健性を大きく向上させることが示された。
סטטיסטיקה
音声指示の平均発話時間は、不確実な部分で2.68秒と長くなっている。
音声指示の中で、ピッチが3.1秒付近で変化している。
音声指示の中で、音量が2.9秒付近で変化している。
ציטוטים
"Beyond Textは、テキストベースの言語モデルに比べて、22.16%から48.30%高い正解率を達成した。"
"Beyond Textは、敵対的攻撃に対して、従来のLLMよりも22.44%低い性能低下率を示した。"