대규모 언어 모델의 추론 성능을 향상하기 위한 다양한 추론 시간 알고리즘들을 소개하고, 토큰 레벨 생성 알고리즘부터 메타 생성 알고리즘, 효율적인 생성 기법까지 포괄적으로 다루면서 각 방법의 작동 방식과 장단점을 분석합니다.
본 논문에서는 중세 토지 대장과 같은 불완전하고 부정확한 역사적 데이터에서 도시 공간의 근접성을 나타내는 그래프를 추출하는 다양한 방법을 제시하고 비교 분석하여 중세 도시 공간 구조에 대한 새로운 접근 방식을 제안합니다.
본 논문에서는 다양한 사전 훈련 설정을 통해 포르투갈어에 특화된 T5 모델(ptt5-v2)을 개발하고, 그 성능을 여러 벤치마크에서 평가하여 언어 특정 모델의 효과와 최적의 훈련 전략을 제시합니다.
일반 대중의 의견을 반영한 규범적 목표와 이를 달성하기 위한 전문가 기반 규칙을 결합하여 언어 모델의 행동을 대중의 의지에 효과적으로 정렬하는 새로운 방법론을 제시합니다.
구글에서 새롭게 출시한 실험적 대규모 언어 모델인 제미나이-exp-1114가 LMArena 벤치마크에서 ChatGPT-4.0를 능가하며 최상위 순위를 차지했지만, 아직 실험 단계인 모델이기에 최종적인 성능 평가를 위해서는 추가적인 검증이 필요하다.
대규모 팟캐스트 데이터셋인 SPoRC를 통해 팟캐스트 생태계의 콘텐츠, 구조, 반응성을 분석하고 이를 통해 사회 과학 및 언어학 연구의 새로운 지평을 열 수 있다.
본 논문에서는 전통적인 수치형 지표의 한계를 극복하기 위해 텍스트 데이터를 활용하여 포트폴리오 다각화를 측정하는 새로운 지표인 어휘 비율(LR)을 제시합니다.
본 연구 논문에서는 고급 딥러닝 모델, 특히 Qwen 2.5 시리즈를 활용하여 벵골어로 된 수학 문제를 효과적으로 해석하고 해결하는 혁신적인 접근 방식을 제시합니다.
대규모 언어 모델의 '기능 엔지니어링' 연구는 모델을 특정 방식으로 조작하여 검열 도구로 악용될 수 있는 가능성을 시사하며, 이는 사회적 양극화를 심화시킬 수 있는 심각한 윤리적 문제를 제기한다.
본 논문에서는 저자원 언어에서 교차 언어 요약 작업을 수행하는 대규모 언어 모델(LLM)의 잠재력을 입증하고, 이를 위한 새로운 제로샷 메타 생성 기반 접근 방식인 SITR(Summarization, Improvement, Translation, and Refinement)을 제안합니다.