本研究では、高次元テキストエンベディングを2次元に可視化する次元削減手法の空間的意味を明らかにするための手法を提案している。
まず、テキストを高次元エンベディングに変換し、次元削減アルゴリズムを適用して2次元に射影する。次に、射影座標に対する単語の勾配を計算し、これらの勾配を利用して単語の影響度を可視化する。具体的には、単語の影響度に応じたサイズの単語クラウドを文書の位置に重ね合わせることで、文書の配置に影響を与える単語を明示する。
この手法により、次元削減された文書の配置を解釈し、文書間の関係性を理解することができる。3つのユースケースを示し、提案手法が異なる次元削減手法や埋め込みモデルの比較、ならびに文書クラスタリングの理解に役立つことを示している。
Başka Bir Dile
kaynak içeriğinden
arxiv.org
Önemli Bilgiler Şuradan Elde Edildi
by Wei Liu, Chr... : arxiv.org 09-09-2024
https://arxiv.org/pdf/2409.03949.pdfDaha Derin Sorular