本論文は、大規模言語モデル(LLM)を用いたテキストクラスタリングの新しい手法を提案している。従来のテキストクラスタリング手法は、個々のエンティティの特徴量のみを考慮しており、エンティティ集合のコンテキストを十分に捉えられないという課題があった。
提案手法では、以下の3つの主要な特徴を持つ:
スケーラブルな注意機構を用いて、エンティティ集合のコンテキストを効率的に捉える。各エンティティの表現は、集合内の他のエンティティとの相互作用を通して得られる。
従来の三項損失関数の課題を解決するため、中立エンティティを導入した拡張三項損失関数を提案する。これにより、クラスタ内外のエンティティ間の類似度の関係を適切に表現できる。
テキストデータ拡張手法に着想を得た自己教師あり学習タスクを導入し、限られた教師データ下でも高精度なクラスタリングを実現する。
提案手法は、eコマース製品やクエリのクラスタリングタスクで、従来手法と比較して大幅な性能向上を示した。特に、コンテキストを活用することで、類似したエンティティを正しくクラスタリングできることが定性的に示された。
toiselle kielelle
lähdeaineistosta
arxiv.org
Tärkeimmät oivallukset
by Sindhu Tipir... klo arxiv.org 05-03-2024
https://arxiv.org/pdf/2405.00988.pdfSyvällisempiä Kysymyksiä