大規模言語モデルは、音声と文字の深い相互作用を要求する音声質問応答タスクにおいて課題を抱えている。本研究では、新しい自由形式の音声質問応答データセットであるLibriSQAを作成し、大規模言語モデルを活用した軽量かつエンドツーエンドのフレームワークを提案することで、この課題に取り組んでいる。