本論文では、人間-エージェント協調タスクにおいて、エージェントが人間の好みに素早く適応できるようにするための手法を提案している。
まず、大規模なオフラインデータセットを使ってニューラルネットワークモデルを事前学習し、人間の好みの多様性をモデル化する。次に、この事前学習モデルのパラメータを使って、オンラインでロジスティック回帰を行うことで、人間の行動から迅速に好みを推定し、適応する。
提案手法であるBLR-HACは、大規模モデルの良好な初期化と、小規模モデルの高速適応の両方の利点を活かすことができる。シミュレーション実験の結果、BLR-HACは、大規模モデルと同等の性能を達成しつつ、計算コストが大幅に低いことが示された。また、好みが変化する状況でも、他の手法に比べて優れた適応性を示した。
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Benjamin A N... at arxiv.org 04-17-2024
https://arxiv.org/pdf/2404.10733.pdfDeeper Inquiries