本文研究了機器學習算法在輸出多個預測(或一個短清單的預測)而不是單一預測的情況下的樣本複雜度。作者提出了兩個新的組合維度 - k-OIG維度和k-fat-shattering維度 - 並證明它們可以分別最佳地描述可實現和非確定性的k清單回歸。
對於非確定性k清單回歸,作者證明了k-fat-shattering維度的有限性是必要且充分的條件。對於可實現的k清單回歸,作者證明了k-OIG維度的有限性是必要且充分的條件。這些量度推廣了已知的標準回歸維度,將現有的清單學習特徵描述從分類擴展到回歸。
作者提出了一種基於樣本壓縮的算法框架,該框架可以在k-fat-shattering維度或k-OIG維度有限的情況下實現最優的樣本複雜度界。該框架首先構建一個弱學習器,然後使用"minimax-and-sample"技術將其提升為一個僅使用小量(次線性)訓練數據就能準確標記整個訓練數據的程序。這種程序構成了樣本壓縮方案,並且已知可以推廣到訓練數據之外。
作者還提出了相應的下界,表明所提出的維度是必要的。這些下界的證明需要使用新的高階打包數量下界,這可能具有獨立的興趣。
總之,本文為k清單回歸提供了一個完整的特徵描述,並提出了最優的學習算法。這些結果擴展了現有的清單學習特徵描述,從分類擴展到回歸。
На другой язык
из исходного контента
arxiv.org
Дополнительные вопросы