이보 언어의 다양한 방언을 포용하는 것이 이보 언어 기술 개발의 핵심 단계이다.
토큰화 방식이 성 포용적 언어 모델의 성능에 큰 영향을 미치며, 데이터 부족으로 인한 토큰화 문제가 모델의 성 편향적 행동을 초래한다.
CMULAB은 언어 커뮤니티 구성원과 언어학자들이 다국어 신경망 모델을 활용하여 새로운 언어에 대한 음성 인식, OCR, 기계 번역, 형태 통사 분석 등의 NLP 도구를 신속하게 적용하고 개선할 수 있도록 지원하는 오픈소스 프레임워크이다.
언어 모델은 특정 지리적 인구를 더 잘 대표하며, 이는 모델의 성능 편차로 이어진다.
기계 번역의 품질을 예측하는 것이 중요하며, 불일치 및 번역 오류 문제를 해결하는 방법을 제안한다.
타임라인 구축을 위한 새로운 평가 데이터 세트인 TimeSET을 개발하고, LLM을 사용한 공식 비교 및 기존 데이터 세트에서의 벤치마킹 실험을 통해 모델의 성능을 평가하고 개선 방향을 모색한다.
포르투갈어를 위한 오픈 디코더 Gervásio PT*의 발전