핵심 개념
대규모 언어 모델(LLM)은 과학 논문 저자를 위한 체크리스트 보조 도구로서 유용성을 보이며 논문 개선에 기여할 수 있지만, 여전히 부정확성과 같은 한계점을 지니고 있어 인간의 전문성을 완전히 대체할 수는 없다.
초록
NeurIPS'24 컨퍼런스에서 확인된 과학 논문 저자 체크리스트 보조 도구로서의 대규모 언어 모델(LLM)의 유용성 및 한계
본 연구는 대규모 언어 모델(LLM) 기반 도구를 활용하여 과학 논문 저자가 제출 기준에 부합하는지 확인하는 데 도움을 주는 저자 체크리스트 보조 도구의 유용성을 평가하고자 하였다.
연구팀은 NeurIPS 2024 컨퍼런스에 제출된 234개의 논문을 대상으로 LLM 기반 체크리스트 보조 도구를 배포하고 실험을 진행했다. 저자들은 자발적으로 자신의 논문을 제출하여 LLM 보조 도구의 평가를 받았으며, 이 도구는 NeurIPS 저자 체크리스트 항목 준수 여부를 검증했다. 연구팀은 사용 전후 설문 조사를 통해 저자들의 기대와 실제 사용 경험을 분석하고, LLM의 피드백 내용과 저자의 체크리스트 답변을 비교 분석하여 LLM이 실질적인 논문 개선에 도움을 주었는지 평가했다. 또한, 악의적인 목적으로 시스템을 악용할 가능성을 확인하기 위해 또 다른 LLM을 공격 에이전트로 사용하여 체크리스트 답변을 조작하고 시스템을 속일 수 있는지 실험했다.