本文提出了兩項改進以提高機器學習模型在選擇偏差存在時的學習效果:
階層偏差誘導方法:利用聚類識別每個類別中的一個特定樣本群組,並通過控制該群組在最終選擇中的比例來引入複雜的多變量類別偏差。與隨機抽樣、Dirichlet偏差和聯合偏差相比,階層偏差能夠產生最顯著的樣本分佈偏移,並對監督學習模型的預測性能產生最大的影響。
多樣類別感知自我訓練(DCAST)框架:DCAST是一種模型無關的半監督學習方法,通過逐步納入未標記數據來獲取關於潛在群體分佈的洞見。CAST策略以類別感知方式選擇置信度高的未標記樣本,DCAST進一步通過樣本多樣性策略緩解置信度相關的偏差。與傳統自我訓練相比,DCAST在11個數據集上顯示出更強的偏差緩解能力,尤其是在神經網絡模型上。DCAST的性能也優於6種主要的領域自適應技術,特別是在高維數據集上。
toiselle kielelle
lähdeaineistosta
arxiv.org
Syvällisempiä Kysymyksiä