Core Concepts
Pre-trained language models can effectively control and evaluate the difficulty levels of MC cloze tests.
Abstract
本研究では、事前学習済み言語モデルを使用して、MCクローズテストの難易度レベルを効果的に制御および評価できることが示された。提案されたフレームワークと方法は、人間のテスト対象者に依存せずに、アイテムレスポンス理論を模倣するPLMベースのIRT評価フレームワークを提供する。難易度制御戦略はエントロピー、意味類似性、編集距離などを活用し、ギャップ位置と不正解選択肢の操作を行う。さらに、無効な不正解選択肢の生成を減らすために妥当性ルールも実装されている。実験結果から明らかになったことは以下の通りである:(1) 上級テスト(CLOTH-H)は中級テスト(CLOTH-M)よりも難易度制御が困難である。(2) ギャップコントロールは限定的な影響しか持たず、CLOTH-Mの容易なアイテム生成時にアイテム変動性が増加する。(3) 比較的、3-Factor Ranking Control法は容易なアイテム生成時に優れて機能し、Confidence Ranking Control法は困難なアイテム生成時に優れている。(4) 妥当性ルールは無効な不正解選択肢を減少させるが完全に排除しない。
Stats
302項目中482個の無効な不正解選択肢がBERTによって自信スコア付けされました。
906個の不正解選択肢中482個が正解よりも高い自信スコアでランク付けされました。
Quotes
"Item difficulty plays a crucial role in adaptive testing."
"Most previous study relies on human test takers and human annotation for assessing the change of difficulty levels."