本研究では、正規化されたICA変換埋め込みを用いることで、コサイン類似度を軸ごとの意味的類似度の和として解釈する新しい手法を提案した。
ICA変換は、主成分分析(PCA)に比べて解釈可能性が高く、正規化によりさらに改善される。ICA変換埋め込みでは、各軸の意味が明確になり、単語間の意味的類似度を軸ごとに定義できる。一方、PCA変換埋め込みでは、各軸の意味が曖昧で、意味的類似度を軸ごとに定義するのが難しい。
具体的には、単語wiとwjの正規化ICA変換埋め込みの成分の積 ˆs(ℓ)
i ˆs(ℓ)
j を、ℓ番目の軸上の意味的類似度 semℓ(wi, wj)と定義する。そして、コサイン類似度はこれらの意味的類似度の和として表現できる。
この手法の有効性を、数値例や詳細な実験により示した。また、各成分値や成分積の確率分布を理論的に導出し、統計的に有意な軸を選択する方法を提案した。
さらに、ICA変換埋め込みは、PCA変換埋め込みに比べて大きな成分値を持つ軸が多く、意味的類似度の表現にも有利であることを確認した。
Vers une autre langue
à partir du contenu source
arxiv.org
Questions plus approfondies