本研究提出了一種新的評估方法,利用代理任務和排名來緊密對齊人類評估標準,克服了通常出現在作為評判的大型語言模型中的偏差。我們證明了所提出的評估器對抗性攻擊是穩健的,包括對非論證性文本的評估。此外,用於訓練評估器的人工撰寫論證僅需要每個代理任務一個示例。通過檢查多個由大型語言模型生成的論證,我們建立了一種確定代理任務是否適合評估由大型語言模型生成的醫療解釋性論證的方法,只需要五個示例和兩名人類專家。