이 논문은 센서링된 피드백으로 인한 데이터 비독립성이 기계 학습 모델의 일반화 성능 보장에 미치는 영향을 분석하고, 탐험 기법을 통해 이를 완화할 수 있는 방법을 제시한다.
먼저, 저자들은 독립동일분포(IID) 데이터에 대한 Dvoretzky-Kiefer-Wolfowitz(DKW) 부등식을 센서링된 피드백이 있는 경우로 일반화한다. 이를 통해 센서링된 피드백으로 인한 데이터 비독립성이 누적분포함수(CDF) 추정의 오차 한계에 미치는 영향을 분석한다.
다음으로, 이 CDF 오차 한계를 활용하여 센서링된 피드백 하에서 학습된 분류 모델의 일반화 오차 한계를 도출한다. 기존 연구에서 고려하지 않았던 센서링된 피드백의 영향을 반영함으로써, 모델의 실제 일반화 성능을 더 정확하게 포착할 수 있음을 보인다.
마지막으로, 최근 문헌에서 제안된 순수 탐험 및 제한적 탐험 기법이 CDF 오차 한계와 일반화 오차 한계를 개선하는 정도를 분석한다. 이를 통해 데이터 수집 비용과 일반화 성능 보장 간의 trade-off를 이해할 수 있다.
他の言語に翻訳
原文コンテンツから
arxiv.org
深掘り質問