這篇研究論文介紹了 FAIR Universe HiggsML 不確定性挑戰賽,這項比賽旨在解決粒子物理學中系統不確定性量化的問題。由於數據集規模不斷增長、工具日益複雜以及探索新現象所需的精度要求,不確定性量化在未來的機器學習中將扮演至關重要的角色。
在過去幾十年中,幾乎所有科學領域的發現空間都因更大、更快的儀器發展所帶來的數據收集增加而顯著加速。近年來,強大的 AI 方法(包括深度學習)的出現進一步加速了這一進展,這些方法可以利用這些數據。然而,一個尚未解決的挑戰仍然存在,並且必須為未來的發現而解決,那就是如何有效地量化和減少不確定性,包括理解和控制系統不確定性(在其他領域也稱為認知不確定性)。這在涉及測量儀器的科學和工業應用中普遍存在(例如醫學、生物學、氣候科學、化學和物理學)。在通過分析歐洲核子研究中心大型強子對撞機 (LHC) 產生的海量粒子物理數據來進一步了解我們對宇宙的基本理解的分析中,發現了一個令人信服的例子。
參與者的目標是開發一個估計器,用於估計類似於大型強子對撞機實驗結果的數據集中希格斯玻色子事件的數量。這種測量是大型強子對撞機上進行的典型測量,它使我們能夠加強(或否定!)我們對自然基本定律的理解。
比賽使用模擬的粒子物理數據集來生成代表大型強子對撞機 ATLAS 實驗收集的高能質子碰撞數據的數據。該數據集是使用兩個廣泛使用的模擬工具 Pythia 8.2 和 Delphes 3.5.0 創建的。數據集以表格形式組織,其中每一行對應於一個碰撞事件,具有 28 個特徵,這些特徵是從一個感興趣的質子束團交叉中記錄的測量值。
參與者的任務是生成希格斯玻色子事件數量 (µ) 的 68.27% 置信區間 (CI),其中包含隨機(偶然)和認知(系統)不確定性,而不是單點估計。
模型的性能基於兩個標準進行評估:精度(CI 的窄度,越窄越好)和覆蓋率(CI 反映測量不確定性的準確性,這意味著 µtruth 有 68.27% 的概率落在 CI 內)。
該挑戰賽為開發和比較機器學習方法提供了一個數據集、挑戰和平台,這些方法不僅可以提供點估計,還可以量化不確定性。該項目建立在大型強子對撞機發現希格斯玻色子的背景下先前工作的基礎上。隨著粒子物理學中數據集規模的增長、工具的複雜性以及探索新現象所需的精度要求,不確定性量化將成為未來機器學習的重要組成部分。
إلى لغة أخرى
من محتوى المصدر
arxiv.org
استفسارات أعمق