核心概念
ルイスのシグナリングゲームをベータVAEとして再定式化することで、人工言語の単語長分布とセグメンテーションの特性を自然言語に近づけることができる。
要約
本論文では、ルイスのシグナリングゲームをベータVAEとして再定式化し、その目的関数をELBOとして定義した。これにより、人工言語の潜在分布の存在を明らかにし、その選択が人工言語の統計的特性に影響を与えることを示した。
具体的には、単語長の分布であるZipfの略語則(ZLA)と単語分節化のハリスの分節化スキーム(HAS)に着目した。従来の目的関数では、これらの特性が再現されないことが報告されていたが、適切な潜在分布を選択することで、より自然な分節が得られることを実験的に示した。
また、ELBOベースの定式化は、認知言語学の観点から、情報量と処理コストのトレードオフをモデル化していると解釈できることも示した。
統計
単語長の分布P prior
unif (K=k)∝exp(γk)は単語が長くなるほど確率が高くなる不自然な分布である。
単語長の分布P prior
α (K=k)∝exp((γ-α)k)は単語が短くなるほど確率が高くなり、より自然な分布である。
引用
"単語長の分布P prior
unif (K=k)∝exp(γk)は単語が長くなるほど確率が高くなる不自然な分布である。"
"単語長の分布P prior
α (K=k)∝exp((γ-α)k)は単語が短くなるほど確率が高くなり、より自然な分布である。"