본 논문에서는 대규모 언어 모델(LLM)의 성능을 보다 정확하고 효율적으로 평가하기 위해 공분산 행렬에서 파생된 엔트로피와 행렬 핵 노름(MNN)을 결합한 새로운 하이브리드 평가 방법을 제안합니다.
Diff-eRank는 대규모 언어 모델(LLM)의 정보 제거 효율성을 측정하여 모델의 성능을 평가하는 새로운 순위 기반 지표입니다.
대규모 언어 모델의 정보 압축 능력을 평가하기 위해 계산 복잡도를 줄인 새로운 지표인 행렬 핵 노름을 제안하고, 이를 통해 모델의 성능을 효율적이고 정확하게 측정할 수 있음을 보여줍니다.
본 논문에서는 복잡한 명령어를 따르는 대규모 언어 모델의 성능을 평가하기 위해 인간이 판단한 중요도를 기반으로 가중치를 부여하는 새로운 평가 지표인 TOWER를 제안합니다.