본 논문에서는 대규모 언어 모델(LLM)의 다국어 성능을 포괄적이고 일관되게 평가하기 위해 설계된 새로운 벤치마크인 P-MMEval을 소개합니다.
본 논문에서는 쌍별 비교를 사용한 대규모 언어 모델 평가 시 발생하는 계산 비용 문제를 해결하기 위해 PoE(Product of Experts) 프레임워크를 제안합니다.
대규모 언어 모델은 언어의 형태(문법) 학습에는 탁월하지만 의미 학습에는 한계를 보이며, 의미 이해는 형태에 대한 통계적 연관성에 크게 의존한다.
대규모 언어 모델(LLM)의 견고성을 평가하기 위해 집합 연산을 활용한 새로운 벤치마크인 SetLexSem Challenge를 소개합니다. 본 연구는 LLM이 집합 연산 작업 수행 시 어휘 및 의미적 변형에 취약하며, 특히 "deceptive" 집합에서 고유한 실패 모드를 보인다는 것을 발견했습니다.
본 논문에서는 천문학 분야에 특화된 최초의 벤치마킹 데이터 세트를 사용하여 독점 및 오픈 가중치 대규모 언어 모델(LLM)에 대한 포괄적인 평가를 제시합니다.
본 논문에서는 사회 관계 네트워크 그래프를 기반으로 대규모 언어 모델(LLM)의 추론 능력과 메모리 능력을 평가하는 RoCar라는 새로운 방법론을 제안합니다.
본 논문에서는 중국어 대규모 언어 모델(LLM)의 사실성을 평가하기 위해 새롭게 개발된 벤치마크인 Chinese SimpleQA를 소개합니다.
LIFBench는 대규모 언어 모델(LLM)의 긴 맥락에서의 명령어 수행 능력과 안정성을 평가하기 위해 특별히 설계된 벤치마크 및 평가 프레임워크입니다.
저자원 언어에 대한 대규모 언어 모델의 이해도를 정확하게 평가하기 위해서는 문화적 뉘앙스를 포함한 벤치마크 데이터셋과 다양한 과제 유형이 필요하다.
본 논문에서는 대규모 언어 모델(LLM)이 인간의 가치에 얼마나 잘 부합하는지 평가하는 새로운 에이전트 기반 프레임워크인 ALI-Agent를 제안합니다. ALI-Agent는 자율 에이전트를 활용하여 현실적인 테스트 시나리오를 생성하고, 모델의 응답을 평가하며, 잠재적 위험을 심층적으로 평가하기 위해 시나리오를 반복적으로 개선합니다.