Core Concepts
본 연구는 ChatGPT의 부정확한 응답을 자동으로 탐지하기 위한 기술과 도구를 개발하였다. 이를 위해 소프트웨어 라이브러리 선택 작업을 사례로 활용하였다.
Abstract
본 연구는 다음과 같은 내용을 포함하고 있다:
135명의 소프트웨어 엔지니어링 실무자를 대상으로 한 설문 조사:
소프트웨어 엔지니어들이 ChatGPT를 다양한 작업에 활용하고 있지만, 그 응답을 완전히 신뢰하지는 않는다는 것을 확인함.
개발자들은 ChatGPT 응답의 정확성을 확인하기 위해 추가적인 검색이나 확인 질문 등의 수동적인 방법을 사용하고 있음.
CID (ChatGPT Incorrectness Detector) 도구 개발:
반복적인 질문을 통해 ChatGPT의 응답 일관성을 측정하여 부정확성을 탐지하는 기술을 제안함.
기본 질문과 변형 질문을 통해 ChatGPT의 응답을 검증하고, 기계학습 모델을 활용하여 부정확성을 판단함.
소프트웨어 라이브러리 선택 작업에 대한 벤치마크 실험에서 CID가 0.74-0.75의 F1 점수로 ChatGPT의 부정확한 응답을 탐지할 수 있음을 보여줌.
Stats
소프트웨어 엔지니어 135명 중 98.52%가 ChatGPT를 사용해 본 경험이 있다.
소프트웨어 엔지니어 중 54.81%는 ChatGPT 응답을 "다소 신뢰할 수 있지만 추가 검증이 필요하다"고 응답했다.
CID 도구는 소프트웨어 라이브러리 선택 작업에서 ChatGPT의 부정확한 응답을 0.74-0.75의 F1 점수로 탐지할 수 있다.
Quotes
"ChatGPT 응답은 다소 신뢰할 수 있지만, 추가적인 검증이 필요하다."
"ChatGPT 응답의 정확성을 확인하기 위해 Google이나 Stack Overflow에서 추가 검색을 한다."
"ChatGPT 응답의 신뢰성을 높이기 위해서는 참고 자료를 제시해야 한다."