Core Concepts
대규모 언어 모델을 활용하여 주어진 텍스트와 키워드에 기반한 교육용 크로스워드 퍼즐 힌트를 자동으로 생성할 수 있다.
Abstract
이 연구에서는 교육용 크로스워드 퍼즐 힌트 생성을 위한 데이터셋 구축 방법을 제안했다. 위키피디아 페이지에서 관련 키워드와 연관된 정보를 수집하고, 대규모 언어 모델을 활용하여 자동으로 교육용 힌트를 생성했다. 이를 통해 44,075개의 고유한 예제로 구성된 clue-instruct 데이터셋을 구축했다.
이 데이터셋을 활용하여 다양한 규모와 계열의 언어 모델을 미세 조정했다. 실험 결과, 미세 조정을 통해 모델의 힌트 생성 품질이 크게 향상되었음을 확인했다. 자동 평가와 인간 평가를 통해 생성된 힌트의 우수성을 검증했다.
Stats
교육용 크로스워드 퍼즐 힌트 생성을 위한 데이터셋 clue-instruct는 총 44,075개의 고유한 예제로 구성되어 있다.
이 데이터셋에는 총 132,225개의 힌트가 포함되어 있다.
데이터셋은 20개의 다양한 주제 분야로 구성되어 있으며, 그중 '지리', '과학', '응용 과학' 분야가 가장 많은 비중을 차지한다.
Quotes
"교육용 크로스워드 퍼즐은 학생들의 학습 참여를 높이는 도구로 활용된다."
"대규모 언어 모델을 활용하면 교육용 크로스워드 퍼즐 생성 과정을 자동화할 수 있다."