Core Concepts
英語とドイツ語の議会討論会コーパスを用いて、統語的言語変化の長期的傾向を分析する。複数のパーサーを使用し、線形依存距離以外の統語的指標を検討する。
Abstract
本研究は、英語とドイツ語の議会討論会コーパスを用いて、過去約160年間の統語的言語変化の長期的傾向を分析している。
主な知見は以下の通り:
複数のパーサーを使用し、線形依存距離以外の15の統語的指標を検討した。パーサーの選択が統語的言語変化の予測に大きな影響を及ぼすことを示した。
英語とドイツ語の統語的変化は全体的に類似しており、わずか4%の指標でのみ反対の傾向が観察された。
統語的指標の変化は、文長分布の端部でより頻繁に観察された。
歴史的スペリングの変化や光学文字認識(OCR)エラーなどのデータノイズが、ドイツ語データに大きな影響を及ぼすことが分かった。一方、英語データはこれらの影響が小さい。
本研究は、近年の自然言語処理技術を活用し、英語とドイツ語の統語的言語変化を包括的に分析した最新の研究である。
Stats
文長が短い文ほど、平均依存距離(mDD)が増加する傾向がある。
文長分布の端部で統語的指標の変化が頻繁に観察される。
Quotes
"統語的依存距離の最小化は、人間の言語の最適化傾向の1つと考えられている。"
"英語とドイツ語の統語的変化は全体的に類似しており、わずか4%の指標でのみ反対の傾向が観察された。"