本論文は、探索と活用を分離できる状況における最適な実験戦略を分析している。
主な知見は以下の通り:
探索と活用を完全に分離できる場合、最適な戦略は漸近的に最良のプロジェクトを活用する。これは従来の探索と活用が一体化した設定とは対照的である。
一方のプロジェクトが安全な場合、最適な活用戦略は探索と活用の程度に応じて閾値を設定するものとなる。この閾値は良いニュースと悪いニュースの最大到着率にのみ依存する。
両プロジェクトが不確実な場合、最適な探索戦略は各プロジェクトの情報価値の比較によって決まる。従来の設定とは異なり、最適な探索戦略は各プロジェクトのパラメータの相互作用に依存し、インデックスによって特定できない。
良いニュース設定では、最適な探索戦略は高い持続性を示す。一方、悪いニュース設定では、高報酬プロジェクトの探索に集中する。
探索と活用の分離は、パラメータが中間的な範囲にある場合に特に有益となる。
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Alessandro L... at arxiv.org 05-01-2024
https://arxiv.org/pdf/2404.19116.pdfDeeper Inquiries