이 논문은 스페인어와 카탈로니아어를 위한 새로운 어휘 간소화 데이터셋 MultiLS-SP/CA를 소개한다. 이는 카탈로니아어의 첫 번째 데이터셋이며 스페인어에 대한 기존 데이터의 중요한 추가이다. 또한 이 데이터셋을 사용한 실험 결과를 제공하여 향후 연구의 기준선으로 활용할 수 있게 한다.
메타포는 일상 언어에 널리 퍼져 있으므로, 언어 모델이 이러한 비유적 언어의 근본적인 의미를 파악할 수 있어야 한다.
다국어 언어 모델에서 의미적으로 유사한 표현을 서로 다른 언어 간에 정렬하는 기술에 대한 종합적인 고찰
본 연구는 SemEval-2024 Task 4에 참여하여 밈의 텍스트와 시각적 콘텐츠를 활용하여 설득 기법을 계층적으로 분류하는 방법을 제안한다. 이를 위해 계층적 임베딩 모델과 클래스 정의 기반 다중 작업 학습 모델을 활용하여 정확도와 포괄성을 높였다.
다양한 언어로 구성된 문장 쌍의 의미적 관련성 정도를 자동으로 탐지하기 위해 대조 학습 및 자동 인코더 기반 접근법을 제안한다.
문맥 정보를 활용하여 정확한 레이블 번역을 수행함으로써 다국어 구조 예측 성능을 향상시킨다.
AAdaM 시스템은 기계 번역을 통한 데이터 증강과 과제 적응형 사전 학습을 활용하여 다국어 의미 텍스트 관련성 측정 성능을 향상시킨다.
대규모 언어 모델의 지속적인 확장은 메모리 집약적인 작업에 있어 기존 미세 조정 방식의 한계를 드러내고 있다. 본 연구는 다국어 요약 작업에서 저차원 적응(LoRA) 기법의 효과를 실험적으로 분석하였다.
다국어 대규모 언어 모델은 고자원 언어에서 저자원 언어로의 지식 전이를 달성하기 위해 개발되었지만, 언어 불균형, 다국어 정렬 및 고유한 편향과 같은 중요한 한계와 과제가 여전히 존재한다.
상호 정보 최대화를 통해 반복적인 토픽 문제를 해결하고 저 커버리지 사전 문제를 완화하는 새로운 다국어 토픽 모델링 방법을 제안한다.