Core Concepts
大規模言語モデルを使用した会議要約タスクにおいて、マルチクエリプロンプトを使用して推論コストを最適化する方法を検討しました。
Abstract
この研究は、大規模言語モデル(LLMs)を使用した会議要約タスクに焦点を当てています。新しいクエリに対応してコンテキスト(会議の記録)の要約を生成する際、LLMsを使用すると、同じコンテキストでも新しいクエリごとにLLM推論エンドポイント/APIへの新しい呼び出しが必要です。しかし、LLM推論エンドポイントへの繰り返し呼び出しは生産性での使用コストを著しく増加させる可能性があります。この問題に対処するため、本稿では、同じ入力コンテキスト用のクエリを1つのプロンプトで結合して繰り返し呼び出しを最小限に抑えることができるかどうか調査しました。多くの人気LLMs(GPT-4、PaLM-2、LLaMA-2、Mistral、FLAN-T5)のパフォーマンスを比較するために広範な実験を行いました。多くのLLMsはマルチクエリ指示に反応する傾向がある一方で、GPT-4以外は期待される形式で正しく応答生成できませんでした。
Stats
大規模言語モデル(LLMs): GPT-4, PaLM-2, LLaMA-2, Mistral, FLAN-T5
データセット: QMSUM (Zhong et al., 2021)
ROUGEスコア: ROUGE-1, ROUGE-2, ROUGE-L