Conceptos Básicos
音声、視覚、テキストの各モダリティからの感情的な手がかりを統合することで、人間の感情をより正確に認識し解釈できる、新しいマルチモーダル大規模言語モデルEmotion-LLaMAが提案されている。
Resumen
Emotion-LLaMA: 命令チューニングを用いたマルチモーダル感情認識と推論
Cheng, Z., Cheng, Z.-Q., He, J.-Y., Sun, J., Wang, K., Lin, Y., ... & Hauptmann, A. G. (2024). Emotion-LLaMA: Multimodal Emotion Recognition and Reasoning with Instruction Tuning. Advances in Neural Information Processing Systems, 38.
本研究は、音声、視覚、テキストなどの複数のモダリティから人間の感情をより正確に認識し、その背後にある理由を推論できるマルチモーダル大規模言語モデルEmotion-LLaMAを開発することを目的とする。