이 연구에서는 포르투갈어 정의 생성을 위한 첫 번째 데이터셋인 DORE를 소개한다. DORE는 103,019개의 정의로 구성되어 있다. 데이터 수집을 위해 온라인 사전 자료를 활용했으며, Dicio와 포르투갈어 위키피디아에서 데이터를 추출했다.
데이터셋 구축 후, 다양한 딥러닝 모델을 사용하여 DORE 데이터셋에서 정의 생성 실험을 수행했다. 일반 트랜스포머 모델, 텍스트 생성 트랜스포머 모델, 그리고 대규모 언어 모델(LLM)을 활용했다. 실험 결과, LLM이 가장 우수한 성능을 보였다. 이는 LLM이 방대한 파라미터 수와 사전 학습된 백과사전 지식을 활용할 수 있기 때문으로 보인다.
이 연구는 포르투갈어 정의 생성 분야에 기여하며, DORE 데이터셋과 실험 결과를 공개하여 향후 관련 연구를 촉진할 것으로 기대된다.
Naar een andere taal
vanuit de broninhoud
arxiv.org
Belangrijkste Inzichten Gedestilleerd Uit
by Anna... om arxiv.org 03-28-2024
https://arxiv.org/pdf/2403.18018.pdfDiepere vragen