本論文は、大規模言語モデル(LLM)を用いたトピックモデリングにおける課題に取り組んでいる。
主な内容は以下の通りである:
LLMを用いたトピックモデリングでは、トピックの粒度が人間の指示通りにならない問題や、ホーリュシネーション(関連性のないトピックの生成)の問題が生じることが明らかになった。
これらの問題に対処するため、Direct Preference Optimization (DPO)を用いてLLMをファインチューニングする新しいアプローチを提案した。この手法では、人手による注釈は必要なく、LLMの出力を自動的に修正することで効率的な学習と推論が可能となる。
実験の結果、提案手法であるTopicMistralは、オフザシェルフのLLMと比べて、より一貫性のあるトピックを生成し、ホーリュシネーションも大幅に減少することが示された。
さらに、動的なシード トピックの使用により、トピックの多様性をさらに高めることができることが分かった。
LLMベースのトピックモデリングの評価指標として、トピックの一貫性、人間の期待との整合性、ホーリュシネーションのリスクを測る新しい指標を提案した。
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Yida Mu,Peiz... at arxiv.org 05-02-2024
https://arxiv.org/pdf/2405.00611.pdfDeeper Inquiries