尽管开发了许多长形式问答(LFQA)方法,但由于其高度复杂性和成本,有效和高效地评估LFQA仍然是一个挑战。为了解决这一差距,我们提出了一个名为"中国考试长形式问答评估基准(CALF)"的参考基准,旨在严格评估自动评估指标对LFQA的性能。