본 논문에서는 대규모 언어 모델(LLM)의 성능을 보다 정확하고 효율적으로 평가하기 위해 공분산 행렬에서 파생된 엔트로피와 행렬 핵 노름(MNN)을 결합한 새로운 하이브리드 평가 방법을 제안합니다.
Diff-eRank는 대규모 언어 모델(LLM)의 정보 제거 효율성을 측정하여 모델의 성능을 평가하는 새로운 순위 기반 지표입니다.
대규모 언어 모델의 정보 압축 능력을 평가하기 위해 계산 복잡도를 줄인 새로운 지표인 행렬 핵 노름을 제안하고, 이를 통해 모델의 성능을 효율적이고 정확하게 측정할 수 있음을 보여줍니다.
본 논문에서는 복잡한 명령어를 따르는 대규모 언어 모델의 성능을 평가하기 위해 인간이 판단한 중요도를 기반으로 가중치를 부여하는 새로운 평가 지표인 TOWER를 제안합니다.
대규모 언어 모델(LLM) 평가를 위한 다양한 지표들의 수학적 공식과 통계적 해석을 제공하고, 이를 활용하여 최근 개발된 의료 분야 LLM의 성능을 평가하는 방법을 소개한다.