Core Concepts
協力的な目標指向型の設定では、参加者は単に成功した結果を得ることだけでなく、相互作用の際の努力を暗黙的に交渉する。本研究では、2人のプレイヤーが視覚と言語の観察を調整する必要のある挑戦的な対話参照ゲームを提案する。このゲームでは、達成された目標と参加者の推定された努力を考慮したスコアが学習シグナルとなる。
Abstract
本研究では、協力的な目標指向型の設定において、参加者が成功した結果を得ることだけでなく、相互作用の際の努力を暗黙的に交渉するという点に着目している。具体的には以下のような内容が含まれている:
2人のプレイヤー(ガイドとフォロワー)が視覚と言語の観察を調整する必要のある挑戦的な対話参照ゲームを提案した。
このゲームでは、達成された目標と参加者の推定された努力を考慮したスコアが学習シグナルとなる。
標準的なProximal Policy Optimization (PPO)セットアップでは、人間同士の相互作用の分析から得られる発見に基づいて、ヒューリスティックなパートナーの行動をブートストラップすることで高い成功率を達成できることを示した。
ニューラルパートナーのペアリングでは、合計の努力が低減されることを確認した。しかし、合理的なヒューリスティックなペアリングと比べると、まだ改善の余地があることが分かった。
Stats
成功の達成と参加者の推定された努力を考慮したスコアは以下の式で表される:
SGame = (STime + SEffort)/2 + SOutcome
ここで、STime = S(T)は所要時間に基づくスコア、SEffort = (S(EG) + S(EF))/2は参加者の努力に基づくスコア、SOutcome = +1は正解の駒を選択した場合、-1は間違った駒または何も選択しなかった場合のペナルティである。