Główne pojęcia
본 연구는 ChatGPT의 부정확한 응답을 자동으로 탐지하기 위한 기술과 도구를 개발하였다. 이를 위해 소프트웨어 라이브러리 선택 작업을 사례로 활용하였다.
Streszczenie
본 연구는 다음과 같은 내용을 포함하고 있다:
-
135명의 소프트웨어 엔지니어링 실무자를 대상으로 한 설문 조사:
- 소프트웨어 엔지니어들이 ChatGPT를 다양한 작업에 활용하고 있지만, 그 응답을 완전히 신뢰하지는 않는다는 것을 확인함.
- 개발자들은 ChatGPT 응답의 정확성을 확인하기 위해 추가적인 검색이나 확인 질문 등의 수동적인 방법을 사용하고 있음.
-
CID (ChatGPT Incorrectness Detector) 도구 개발:
- 반복적인 질문을 통해 ChatGPT의 응답 일관성을 측정하여 부정확성을 탐지하는 기술을 제안함.
- 기본 질문과 변형 질문을 통해 ChatGPT의 응답을 검증하고, 기계학습 모델을 활용하여 부정확성을 판단함.
- 소프트웨어 라이브러리 선택 작업에 대한 벤치마크 실험에서 CID가 0.74-0.75의 F1 점수로 ChatGPT의 부정확한 응답을 탐지할 수 있음을 보여줌.
Statystyki
소프트웨어 엔지니어 135명 중 98.52%가 ChatGPT를 사용해 본 경험이 있다.
소프트웨어 엔지니어 중 54.81%는 ChatGPT 응답을 "다소 신뢰할 수 있지만 추가 검증이 필요하다"고 응답했다.
CID 도구는 소프트웨어 라이브러리 선택 작업에서 ChatGPT의 부정확한 응답을 0.74-0.75의 F1 점수로 탐지할 수 있다.
Cytaty
"ChatGPT 응답은 다소 신뢰할 수 있지만, 추가적인 검증이 필요하다."
"ChatGPT 응답의 정확성을 확인하기 위해 Google이나 Stack Overflow에서 추가 검색을 한다."
"ChatGPT 응답의 신뢰성을 높이기 위해서는 참고 자료를 제시해야 한다."