FreeEval은 대규모 언어 모델 평가를 위한 통합적이고 확장 가능한 프레임워크로, 다양한 평가 방법을 투명하게 통합하고, 평가 결과의 신뢰성과 효율성을 높이는 것을 목표로 합니다.
대규모 언어 모델은 사실과 부합하지 않거나 입력 문맥과 일치하지 않는 출력을 생성하는 경향이 있다. 이 논문은 다양한 벤치마크를 통해 각 모델의 환각 경향을 정량적으로 측정하고 비교하는 환각 리더보드를 소개한다.
S3EVAL은 SQL 실행 작업을 활용하여 대규모 언어 모델의 성능을 종합적이고 체계적으로 평가할 수 있는 새로운 평가 도구이다.
MANGO 벤치마크는 ChatGPT, GPT-4 등 대규모 언어 모델의 텍스트 기반 매핑 및 내비게이션 능력을 평가한다. 53개의 복잡한 미로와 수백 개의 목적지 찾기 및 경로 찾기 질문으로 구성되어 있으며, 모델은 주어진 워크스루를 읽고 질문에 답변해야 한다. 실험 결과 GPT-4를 포함한 현재 최고의 모델들도 이 과제에서 저조한 성능을 보였다.
최근 대규모 언어 모델의 벤치마크 점수와 실제 성능 간 격차가 발생하면서, 벤치마크 데이터 오염에 대한 우려가 제기되고 있다. 본 연구는 오픈 소스 및 독점 모델에 적용 가능한 두 가지 방법을 제안하여 이 문제를 조사한다.
이 연구는 다양한 대규모 언어 모델(GPT-3.5-Turbo, GPT-4, PaLM2, Gemini-Pro, Mistral, Llama2, Gemma)의 다국어 성능을 동일한 다국어 데이터셋을 통해 비교 평가하였다.
대규모 언어 모델(LLM)은 여전히 사실적 지식을 충분히 내재화하지 못하고 있으며, 특히 인기도가 낮은 개체와 관계에 대한 지식이 부족하다.
대규모 언어 모델은 텍스트 데이터만으로 훈련되었음에도 불구하고 음운론적 기술을 상당 수준 습득하고 있지만, 인간 수준에는 미치지 못하는 것으로 나타났다.
다중 AI 에이전트 모델을 통해 GPT-3.5 Turbo, GPT-4, Google Bard 등 다양한 대규모 언어 모델의 코드 생성 성능을 평가하고 비교하였으며, GPT-3.5 Turbo가 가장 우수한 성능을 보였다.
Evalverse는 다양한 평가 도구를 단일 사용자 친화적 프레임워크로 통합하여 대규모 언어 모델 평가를 간소화합니다.