핵심 개념
본 논문에서는 대규모 언어 모델(LLM) 기반 토픽 모델링 기법을 활용하여 방대한 연구 문헌에서 지속가능한 개발 목표(SDGs)에 대한 연구 경향과 변화를 분석하는 방법론을 제시합니다.
초록
지속가능한 개발 목표 연구 동향 분석: TETYS 시스템
본 연구 논문에서는 대규모 언어 모델(LLM) 기반 토픽 모델링 파이프라인인 TETYS(Topics Evolution That You See)를 소개하며, 이를 통해 Scopus 데이터베이스에서 추출한 방대한 연구 초록 데이터를 분석하여 지속가능한 개발 목표(SDGs)에 대한 연구 동향과 변화를 파악합니다.
전 세계적으로 지속가능한 개발 목표(SDGs)에 대한 관심과 연구가 증가하고 있지만, 방대한 연구 문헌을 분석하고 종합적으로 이해하는 데 어려움을 겪고 있습니다.
본 연구는 LLM 기반 토픽 모델링 기법을 활용하여 SDGs 관련 연구 주제를 자동으로 추출하고, 시간의 흐름에 따른 변화를 분석하는 시스템을 개발하는 것을 목표로 합니다.
1. 데이터 수집 및 전처리
Elsevier Scopus 데이터베이스에서 SDGs 관련 키워드를 포함하는 연구 초록 데이터를 수집합니다.
수집된 데이터는 중복 제거, 기간 설정(2006년~2023년), 영어 초록 필터링 등의 전처리 과정을 거칩니다.
SDGs 관련 키워드는 5개의 주요 영역(Basic Human Needs and Well-being, Environmental Sustainability, Economic Development and Employment, Equality and Social Inclusion, Global Partnerships and Peace)으로 분류됩니다.
2. LLM 기반 토픽 모델링
각 영역별 연구 초록 데이터를 LLM 기반 임베딩 모델(Salesforce embedding model (SFR-Embedding-2 R LLM))을 사용하여 임베딩 벡터로 변환합니다.
UMAP 차원 축소 기법을 통해 임베딩 벡터의 차원을 축소합니다.
HDBSCAN 클러스터링 알고리즘을 사용하여 유사한 연구 주제를 가진 초록들을 그룹화합니다.
각 토픽을 대표하는 키워드를 추출하고, 시간의 흐름에 따른 토픽의 변화를 시각화합니다.
3. 토픽 탐색 및 시각화
개발된 TETYS 웹 애플리케이션을 통해 사용자는 다양한 방식으로 토픽을 탐색하고 분석할 수 있습니다.
키워드 검색을 통해 특정 주제와 관련된 토픽을 찾을 수 있습니다.
특정 연구 논문(DOI 기반)과 유사한 토픽을 찾을 수 있습니다.
시간의 흐름에 따른 토픽의 변화를 시각화하여 연구 동향을 파악할 수 있습니다.