本論文は、クロスリンガルトピックモデリングの2つの主要な課題、すなわち反復的なトピックの生成と辞書の低カバレッジ問題に取り組む新しい手法を提案する。
まず、提案手法のInfoCTMは、トピック表現の相互情報を最大化することで、トピック表現の退化を防ぎ、反復的なトピックの生成を抑制する。これにより、より一貫性のあり、多様性のあるトピックを発見できる。
次に、クロスリンガル語彙リンキング手法を提案し、辞書の翻訳ペアだけでなく、単語の意味的に近い単語の翻訳も利用することで、辞書の低カバレッジ問題に対処する。
実験では、英語、中国語、日本語のデータセットで提案手法の有効性を示す。提案手法は、トピックの一貫性と多様性の指標で従来手法を大きく上回り、クロスリンガル分類タスクでも優れた性能を発揮する。さらに、低カバレッジの辞書でも良好な結果を得られることを示す。
Sang ngôn ngữ khác
từ nội dung nguồn
arxiv.org
Thông tin chi tiết chính được chắt lọc từ
by Xiaobao Wu,X... lúc arxiv.org 03-28-2024
https://arxiv.org/pdf/2304.03544.pdfYêu cầu sâu hơn