본 논문에서는 대규모 언어 모델(LLM)을 사용하여 인간과 AI 모델 간의 상호작용 질의응답(IQA) 시스템을 자동으로 평가하는 IQA-EVAL 프레임워크를 제안하고, 이를 활용하여 최신 LLM의 IQA 성능을 벤치마킹한 결과를 제시합니다.