本論文では、オフラインリインフォースメントラーニングの問題設定において、2つのドメインからデータが収集される状況を考える。このような場合、ドメインラベルを持つデータがあれば、効率的な方策学習が可能となる。しかし実際には、ドメインラベルの付与は多大なリソースを要するか、大規模な状況では不可能となることが多い。そのため、ドメインラベル無しデータが大量に存在する状況が一般的である。
本研究では、このような課題に対処するため、ドメインラベル無しデータを含むオフラインリインフォースメントラーニングの新しい問題設定「Positive-Unlabeled Offline RL (PUORL)」を提案する。PUORLでは、ポジティブ・アンラベルド学習を活用してドメインラベルを予測し、それを方策学習に活用する手法を開発する。実験では、ドメインラベル付与率が低い状況(3%)でも、提案手法がドメインを正確に識別し、ベースラインを上回る性能の方策を学習できることを示す。
To Another Language
from source content
arxiv.org
Djupare frågor