Основні поняття
GRE 시험의 언어 이해력과 수리 능력 문제를 해결하는 데 있어 ChatGPT, GPT-4, Microsoft Bing 채팅봇의 성능을 비교 분석하였으며, GPT-4가 가장 우수한 성과를 보였다.
Анотація
이 연구는 GRE 시험의 언어 이해력과 수리 능력 문제를 해결하는 데 있어 ChatGPT, GPT-4, Microsoft Bing 채팅봇의 성능을 비교 분석하였다.
GRE 시험은 언어 이해력, 수리 능력, 논술 능력 등 3개 영역으로 구성되며, 이 연구에서는 언어 이해력과 수리 능력 문제를 중심으로 분석을 진행하였다.
수리 능력 문제의 경우, GPT-4가 가장 우수한 성과를 보였고, 특히 복잡한 수학 문제 해결에 강점을 보였다. Bing은 데이터 분석과 대수 문제에서 상대적으로 낮은 정확도를 보였다. ChatGPT는 대수 문제 해결에 어려움을 겪었다.
언어 이해력 문제의 경우, GPT-4가 가장 높은 정확도를 보였고, 특히 쉬운 수준의 문제에서 우수한 성과를 보였다. Bing은 읽기 이해력 문제에서 가장 낮은 정확도를 보였지만, 문장 동의어 문제에서는 상대적으로 나은 성과를 보였다. ChatGPT는 문장 동의어 문제 해결에 어려움을 겪었다.
이미지 기반 수리 문제의 경우, GPT-4가 가장 우수한 성과를 보였고, Bing과 ChatGPT는 이미지 해석에 어려움을 겪었다.
전반적으로 GPT-4가 가장 우수한 성과를 보였고, 복잡한 언어 이해력 문제와 이미지 기반 문제 해결에 강점을 보였다. 이 결과는 이러한 채팅봇들이 GRE 시험 준비에 활용될 수 있음을 시사하지만, 온라인 시험 환경에서 부정행위 방지를 위한 대책이 필요함을 보여준다.
Статистика
GRE 시험에는 총 137개의 수리 능력 문제와 157개의 언어 이해력 문제가 포함되어 있다.
GPT-4는 수리 능력 문제 중 114개(83.21%)와 언어 이해력 문제 중 137개(87.26%)를 정답으로 해결하였다.
ChatGPT는 수리 능력 문제 중 79개(57.66%)와 언어 이해력 문제 중 112개(71.34%)를 정답으로 해결하였다.
Bing은 수리 능력 문제 중 67개(48.9%)와 언어 이해력 문제 중 103개(65.61%)를 정답으로 해결하였다.