Temel Kavramlar
音声認識後の感情認識において、大規模言語モデル(LLM)のプロンプトエンジニアリングを通して、文脈情報と複数の音声認識システムの出力を効果的に活用する方法を提案し、その有効性を検証した。
Özet
本論文は、音声認識結果を用いた音声感情認識において、大規模言語モデル(LLM)のプロンプトエンジニアリングを通して、文脈情報と複数の音声認識システムの出力を効果的に活用する方法を提案し、その有効性を検証した研究について述べています。
研究の背景
音声感情認識 (SER) は、音声から話者の感情状態を自動的に識別するタスクであり、人間とコンピュータの自然なインタラクションの実現に向けて重要な技術です。近年、大規模言語モデル (LLM) が音声やテキストのモデリングにおいて重要な役割を果たすようになってきており、SERの分野にも応用され始めています。LLMは汎用的なアプローチとして、またすぐに使用できるという点で魅力的ですが、複雑な状況下ではまだ性能が十分ではありません。
研究の目的
本研究では、LLMを用いた音声認識後における感情認識において、最適な文脈情報の活用と複数の音声認識システムの出力の組み合わせ方を探求することを目的としました。
研究方法
本研究では、GenSEC Task 3と呼ばれるタスクを用いて、LLMのプロンプトエンジニアリングによる音声認識後における音声感情予測を行いました。具体的な手法は以下の通りです。
- 音声認識出力のランキング: 複数の音声認識システムの出力から、文字列ベースのメトリクス(chrF、chrF++、WER、MER、WIL、WIP)やヒューリスティックな基準(文字数、句読点の数)を用いて、感情予測に最適な音声認識出力を選択しました。
- 会話履歴の活用: 会話履歴を可変長の文脈情報としてLLMのプロンプトに追加することで、文脈情報が感情予測に与える影響を調査しました。
- 音声認識出力の融合: 複数の音声認識システムの出力を組み合わせることで、それぞれのシステムが捉える異なるニュアンスやエラーパターンを補完し合い、感情予測の精度向上を目指しました。
研究結果
- GPT-4oは、GPT-3.5-turboと比較して、あらゆる文脈サイズにおいて一貫して高い精度を示しました。
- 文脈サイズが大きくなるにつれて、両方のモデルの精度は向上しましたが、文脈サイズが大きくなるにつれて、その改善は減少しました。
- 音声認識出力の選択には、chrF、chrF++、MERなどのメトリクスが有効であることがわかりました。
- 文脈情報と音声認識出力の融合においては、長い文脈サイズと複数の候補を用いることで、より高い精度が得られることがわかりました。
結論
本研究では、LLMのプロンプトエンジニアリングを通して、文脈情報と複数の音声認識システムの出力を効果的に活用することで、音声認識後における音声感情認識の精度を大幅に向上させることができました。
İstatistikler
GPT-3.5ベースラインのGenSEC Task 3における精度は、わずか55.18%でした。
最終的な提案モデルは、75.1%のSER精度を記録し、ベースラインを20%上回りました。
Alıntılar
"While (re-)training an LLM for a certain task is prohibitive in many scenarios, we take this opportunity further to understand the optimal use of LLMs in this task by exploring LLM prompting in post-ASR SER."
"To aid reproducibility, we make our code public."
"Our final submission records an SER accuracy of 75.1% surpassing the baseline by 20%. Given our training-free paradigm, we expect it to be more generalizable to other settings."