Kernkonzepte
本文提出了一種基於量子認知機器學習和量子幾何的新型資料表示方法,並將其應用於流形學習,特別是資料集內在維度的估計。該方法能夠在引入噪音的情況下保持穩健性,與現有的狀態技術相比具有顯著優勢。
Zusammenfassung
本文提出了一種新的基於量子認知機器學習(QCML)和量子幾何的資料表示方法,並將其應用於流形學習,特別是資料集內在維度的估計。
主要內容如下:
- 該方法通過學習每個數據點的量子狀態來表示數據,從而捕捉數據點的局部性質以及與整個數據集的關係。
- 基於量子幾何的思想,從量子狀態構建了一個帶有量子度量的點雲,其中度量的特徵值間隙對應於數據流形的內在維度。
- 提出了一種基於檢測此特徵值間隙的內在維度估計算法。
- 在合成流形基準和真實數據集(ISOMAP人臉數據庫、MNIST手寫數字、威斯康星乳腺癌數據集)上進行了測試,結果表明該方法在引入噪音的情況下仍然保持穩健性,而現有的狀態技術則容易受到噪音的影響而產生過高的估計。
Statistiken
在合成的模糊球體數據集上,即使在噪音水平為0.2的情況下,QCML估計器仍能在2471個樣本中獲得2維的內在維度估計,平均估計值為1.9884。
在10維超立方體、10維Mβ流形和18維MN1流形的測試中,QCML估計器均能準確地識別出正確的內在維度。
在ISOMAP人臉數據集上,QCML估計器給出了3維的內在維度估計,與預期結果一致。
在MNIST手寫數字"1"的子集上,QCML估計器給出了5-15維的內在維度範圍,與文獻報告的8-14維估計相符。
在威斯康星乳腺癌數據集上,QCML估計器在不同噪音水平下一致給出2維的內在維度估計。