核心概念
言語モデルは文字列に対する確率分布を定義するものである。確率論の基礎概念を用いて、言語モデルを厳密に定義する必要がある。
要約
本章では、言語モデルを数学的に定義するための基礎となる確率論の概念を説明する。
まず、言語モデルの非形式的な定義を示し、その定義には問題があることを指摘する。具体的には、無限長の系列に対して確率を定義できないという問題がある。そのため、測度論に基づいた確率論の基礎を復習する。
次に、言語モデルを正式に定義する。言語モデルは、アルファベットΣ上の文字列集合Σ上の確率分布として定義される。ただし、Σは無限集合であるため、確率分布を定義する際には注意が必要である。
その上で、言語モデルの2つの定式化、すなわち大域的正規化モデルと局所的正規化モデルについて説明する。大域的正規化モデルは、文字列全体の確率を一度に正規化するが、正規化定数の計算が困難な場合がある。一方、局所的正規化モデルは、文字列を順次生成する際の条件付き確率を定義し、正規化を局所的に行う。ただし、局所的正規化モデルでは、無限長の系列に対して正の確率を割り当ててしまう可能性がある。