대규모 언어 모델(LLM)을 특정 작업에 효율적으로 미세 조정하는 것은 필수적이지만, 이러한 모델의 방대한 매개변수 수로 인해 학습이 점점 더 어려워지고 있습니다. 본 논문에서는 로짓 연산을 사용한 약-강 전문화를 통해 추가 학습 없이 일련의 작업별 소규모 모델을 미세 조정하고 그 지식을 훨씬 더 큰 모델로 직접 전이하는 방법을 제안합니다.
대규모 언어 모델은 다단계 추론 과정에서 첫 번째 단계를 너무 늦게 해결하여 두 번째 단계에서 필요한 정보를 활용하지 못하는 제한적인 순차적 추론 방식을 보인다.
대규모 언어 모델의 정보 압축 능력을 평가하기 위해 계산 복잡도를 줄인 새로운 지표인 행렬 핵 노름을 제안하고, 이를 통해 모델의 성능을 효율적이고 정확하게 측정할 수 있음을 보여줍니다.
대형 언어 모델(LLM)은 정보 접근성을 혁신할 수 있는 잠재력을 지니고 있지만, 토큰화 비용 및 성능 격차로 인해 저소득 국가의 비영어 사용자에게 불균형적인 영향을 미치고 있으며, 이는 사회경제적 불평등을 심화시키고 디지털 격차를 더욱 악화시킬 수 있다.
온라인 언어 자원의 양과 다양성이 대규모 언어 모델(LLM)의 문화적 가치 표현 능력에 큰 영향을 미치며, 특히 저자원 언어의 경우 온라인 자료 부족으로 인해 LLM의 성능이 저하되고 문화적 편향이 심화될 수 있다.
TMGBench는 다양한 2x2 게임 시나리오를 기반으로 대규모 언어 모델(LLM)의 전략적 추론 능력을 평가하는 벤치마크로, 고전적인 게임 이론 시나리오뿐만 아니라 실생활에서 발생 가능한 스토리 기반 시나리오를 포함하며, 순차적, 병렬적, 중첩적 형태의 복잡한 게임 형태를 통해 LLM의 심층적인 추론 능력을 평가합니다.
본 논문에서는 중국 소셜 미디어에서 정신 건강 분석을 위해 특별히 설계된 최초의 설명 가능한 대규모 언어 모델인 MentalGLM 시리즈를 소개하며, 이는 향상된 성능과 설명 가능성을 제공하여 정신 건강 분야에서의 실용적인 응용 가능성을 높입니다.
사전 훈련된 언어 모델(PLM)을 여러 도메인에 효율적으로 적용하기 위해 모듈형 도메인 전문가(MoDE)라는 새로운 아키텍처를 제안하며, 이는 도메인별 전문 지식을 학습하는 전문가 모듈을 통해 성능을 향상시키면서 기존 PLM의 장점을 유지합니다.
대규모 언어 모델의 컨텍스트 내 학습 성능을 향상시키기 위해, 여러 데모에서 얻은 로그잇을 앙상블하고 재가중치를 부여하는 새로운 프레임워크인 LARA(Logit Arithmetic Reweighting Approach)를 제안한다.
COrAL은 순서 독립적 모델링과 디노이징 기술을 결합하여 반복적인 개선을 통해 효율성과 성능을 향상시킨 언어 모델링 프레임워크입니다.