المفاهيم الأساسية
多くの複雑なデータセットは複数の異質なソースから収集されるが、共通性も存在する。本研究では、タスク間のパラメータが共通のグローバルパラメータと少数のタスク固有の項で表される「スパース異質性」を仮定し、多タスク線形回帰と文脈バンディットの新しい推定手法を提案する。提案手法は、データの総量と異質性の程度を活用して、単一タスクの最適レートを大幅に改善できることを示す。
الملخص
本研究では、多くのデータセットが複数のソースから収集され、異質性を持つが共通性も存在する状況を考える。具体的には、タスク間のパラメータが共通のグローバルパラメータと少数のタスク固有の項で表される「スパース異質性」を仮定する。
提案手法MOLARは以下の2段階で構成される:
- 加重中央値を用いて、タスク固有の最小二乗推定量の共通部分を推定する。これにより、データ量と異質性の程度を活用できる。
- 共通部分と個別の最小二乗推定量の差が小さい場合は共通部分を採用し、そうでない場合は個別の最小二乗推定量を採用する。これにより、異質性の大きい部分を適切に推定できる。
理論的には、MOLARの推定誤差が単一タスクの最適レートを大幅に改善できることを示す。また、下界も導出し、MOLARが最適であることを示す。
さらに、提案手法を文脈バンディットに適用し、単一タスクのバンディット手法に比べて後悔regretが改善されることを示す。
الإحصائيات
多くのデータセットは複数のソースから収集され、異質性を持つが共通性も存在する。
タスク間のパラメータは共通のグローバルパラメータと少数のタスク固有の項で表される「スパース異質性」を持つ。
提案手法MOLARは、データ量と異質性の程度を活用して、単一タスクの最適レートを大幅に改善できる。
اقتباسات
"Large and complex datasets are often collected from several, possibly heterogeneous sources."
"Multitask learning methods improve efficiency by leveraging commonalities across datasets while accounting for possible differences among them."
"Here, we study multitask linear regression and contextual bandits under sparse heterogeneity, where the source/task-associated parameters are equal to a global parameter plus a sparse task-specific term."