核心概念
LaTeX形式の数式を評価するための新しい指標「TeXBLEU」を提案する。これは、広く使われているBLEUメトリックをベースにしつつ、LaTeX固有の特徴を考慮したものである。
摘要
本研究では、LaTeX形式の数式を評価するための新しい指標「TeXBLEU」を提案した。
主な特徴は以下の通り:
- arXivの論文データセットを使って訓練したトークナイザーと微調整済みの埋め込みモデルを使用
- トークンの位置情報も考慮
- n-gramに基づいてトークンを比較し、対数和の指数関数を使ってスコアを算出
実験の結果、TeXBLEUは既存の評価指標(BLEU、Rouge、CER、WER)と比べて、MathBridgeデータセットのテストデータに対する人間評価との相関が高いことが示された。平均相関係数は0.71で、BLEUの最高相関より87%改善された。
TeXBLEUは、LaTeX形式の数式を効果的に評価できる新しい指標として期待できる。今後の課題としては、LaTeX入力をコンパイルした際のエラーチェックなどが挙げられる。
统计
LaTeX形式の数式を評価する際、従来のメトリックではトークンの分割や位置情報の扱いに課題があった。
TeXBLEUは、arXivデータセットを使って訓練したトークナイザーと位置情報を考慮することで、人間評価との相関が大幅に向上した。
TeXBLEUの平均相関係数は0.71で、BLEUの最高相関より87%改善された。
引用
"LaTeX is highly suited to creating documents with special formatting, particularly in the fields of science, technology, mathematics, and computer science."
"BLEU's tokenizer, trained on English corpora, often splits LaTeX commands into irrelevant tokens and fails to capture the correct structure of the LaTeX expressions."
"Simultaneously, TeXBLEU compares tokens based on n-grams and computes the score using exponentiation of a logarithmic sum, similar to the original BLEU."