Core Concepts
分類カテゴリーの編集は、関連する特性も一貫して変更できるかどうかを評価することが重要である。
Abstract
本研究では、分類カテゴリーの編集が関連する特性の変更にも一貫して反映されるかどうかを評価するためのTAXIベンチマークを提案した。TAXIは41の分類カテゴリー、164の主体、183の特性から構成される。
実験の結果、最近提案された言語モデル編集手法は分類カテゴリーの編集に成功するものの、関連する特性の一貫した変更には至っていないことが示された。一方、人間被験者は同じタスクで編集手法の約2倍の正確さを示した。これは、分類知識の一貫した編集に向けた大きな改善の余地があることを示唆している。
Stats
分類カテゴリーの編集は、ほとんどの場合成功するが(編集成功率0.78-1.0)、特性の一貫した変更は難しい(一貫性0.14-0.47)。
人間被験者は特性の一貫性で0.86の高い成績を収めた。
Quotes
"分類カテゴリーは強力な概念的・言語的構造であり、メンバーの多くの幅広い特性を含意する。分類カテゴリーの編集は、その特性の一貫した変更を支持する強力なテストを可能にする。"
"人間の信念改訂は、多くの信念にわたる一貫した変化によって特徴づけられる。モデル編集者は、単一の「事実」を変更するのではなく、知識の範囲全体にわたる一貫した変更を生み出すべきである。"