文レベル予測を活用してNLGシステム内部でトークンレベル問題を特定することは理論上可能ですが、実践上非常に困難です。通常、文全体の意味論や流暢さだけではなく、個々のトークンや単語間でも意味関係や整合性が保持されている必要があります。
トークンレベル問題を特定するためには、「単純ランダムゲーム」アプローチよりも洗練された手法や評価基準が必要です。例えば、「BERTScores」といった指標を使用して各トークン間の関連性や一貫性を評価し、「Hallucinations and Related Observable Overgeneration Mistakes Detection」タイプ の共有タスク(SHROOM)から学んだ手法も応用可能かもしれません。