Concepts de base
데이터 선택 기법을 통해 사전 학습 효율성을 높이고 계산 비용을 줄일 수 있다.
Résumé
이 논문은 사전 학습 모델의 효율성을 높이기 위한 데이터 선택 기법을 제안한다.
기존의 데이터 선택 기법(N-gram, TF-IDF, Perplexity 기반 선택 등)을 검토하고 비교 분석했다.
이를 바탕으로 TextGram이라는 새로운 데이터 선택 기법을 제안했다. TextGram은 N-gram과 TextRank 기법을 결합한 방식으로, 도메인 특화 데이터 선택에 효과적이다.
실험 결과, TextGram 기법을 사용했을 때 문서 분류 성능이 가장 우수했다.
데이터 선택을 통해 사전 학습 시간과 계산 비용을 줄이면서도 모델 성능을 유지할 수 있다.
Stats
사전 학습 없이 fine-tuning한 경우 문서 분류 정확도는 90.40%였다.
TextGram 기법을 사용한 경우 문서 분류 정확도가 91.02%로 가장 높았다.
Citations
"데이터 선택은 모델 학습에 필요한 시간과 계산 자원을 줄이는 데 중요한 역할을 한다."
"TextGram은 N-gram과 TextRank 기법을 결합한 새로운 데이터 선택 기법으로, 도메인 적응형 사전 학습에 효과적이다."