CriticAL 是一個利用大型語言模型 (LLM) 自動化進行模型批判的系統,它透過生成摘要統計數據來找出模型預測與數據之間的差異,並利用假設檢定來評估這些差異的顯著性,進而協助科學家更有效率地改進模型。