이 연구는 기술 포럼 게시물의 의도를 이해하고 자동으로 분류하는 방법을 제안한다.
먼저 게시물의 내용 유형과 구조를 수동으로 분석하였다. 게시물에는 코드 스니펫, 오류 메시지, 이미지 등 다양한 유형의 콘텐츠가 포함되어 있으며, 이러한 콘텐츠는 주로 코드 블록에 포함되어 있다.
다음으로 기존 연구와 산업계 의견을 참고하여 기술 포럼 게시물의 의도 분류 체계를 구축하였다. 7가지 의도 유형을 정의하였으며, 이를 바탕으로 784개의 게시물을 수동으로 레이블링하였다.
마지막으로 게시물의 텍스트 및 구조적 특징을 활용하여 의도를 자동으로 예측하는 프레임워크를 제안하였다. 사전 훈련된 언어 모델을 활용하여 게시물의 제목과 설명에 대한 임베딩을 생성하고, 코드 블록의 콘텐츠 유형 정보를 추가 특징으로 사용하였다. 이를 통해 의도 분류 성능을 향상시켰다.
To Another Language
from source content
arxiv.org
Ключові висновки, отримані з
by Xingfang Wu,... о arxiv.org 04-11-2024
https://arxiv.org/pdf/2312.14279.pdfГлибші Запити