本研究は、対話型セグメンテーションモデルの評価における課題に取り組んでいる。従来の研究では、実際のユーザー参加型の評価実験や、シミュレーションユーザーを用いた評価が行われてきたが、それぞれに課題がある。
実際のユーザー参加型の評価実験は高コストで規模が限られる一方、シミュレーションユーザーは理想化されたものであり、モデルの性能を過大評価する傾向がある。
そこで本研究では、以下の取り組みを行っている:
シミュレーションユーザーとの差異を定量的に評価する4つの指標(M1-M4)を提案した。これらの指標は、セグメンテーション精度、ユーザー行動、グラウンドトゥルースとの適合性などを評価する。
第1の実験では、既存のシミュレーションユーザーを評価し、実際のユーザーとの大きな乖離があることを示した。
これらの知見に基づき、クリック位置のランダム変動と、グラウンドトゥルース外の領域へのクリック配置を導入した新しいシミュレーションユーザーを提案した。
第2の実験では、提案手法が既存のシミュレーションユーザーに比べて、実際のユーザーとの差異を大幅に低減できることを示した。
これにより、より現実的なシミュレーションユーザーを用いることで、対話型セグメンテーションモデルの評価の信頼性を高められることが示された。
To Another Language
from source content
arxiv.org
Viktige innsikter hentet fra
by Zdravko Mari... klokken arxiv.org 04-03-2024
https://arxiv.org/pdf/2404.01816.pdfDypere Spørsmål