이 연구는 학생 강의 평가(SETs) 데이터를 분석하기 위한 새로운 방법론을 제안한다. 기존의 질적 주제 분석 방법은 많은 시간과 노력이 필요하지만, 이 연구에서 제안하는 방법은 자연어 처리(NLP) 기술과 대규모 언어 모델(LLM)을 활용하여 효율적이고 자동화된 방식으로 주요 주제와 개념을 추출하고 요약한다.
주요 내용은 다음과 같다:
추출: 원본 SETs 데이터에서 개별 아이디어를 추출하는 단계. 이를 통해 다양한 언어로 표현된 아이디어를 표준화한다.
임베딩: 추출된 아이디어를 벡터 공간에 임베딩하여 의미적 유사성을 수치화한다.
클러스터링: 임베딩된 아이디어를 유사도 기반으로 클러스터링하여 주요 주제를 식별한다.
요약: 각 클러스터의 대표 아이디어를 선정하고 생성 모델을 활용하여 코드북을 자동 생성한다.
단순화: 생성된 코드북에서 중복되거나 모호한 코드를 제거하여 최종 코드북을 정제한다.
이 방법론은 기존 인간 코딩 과정을 효과적으로 모방하면서도 대규모 데이터 분석이 가능하다는 장점이 있다. 또한 오픈소스 모델을 활용하여 보안 및 윤리적 문제를 해결할 수 있다. 이를 통해 교육 분야뿐만 아니라 다양한 분야의 질적 데이터 분석에 활용될 수 있을 것으로 기대된다.
Para outro idioma
do conteúdo fonte
arxiv.org
Principais Insights Extraídos De
by Andrew Katz,... às arxiv.org 03-19-2024
https://arxiv.org/pdf/2403.11984.pdfPerguntas Mais Profundas