본 논문에서는 단일 계층 트랜스포머가 적절하게 분포된 데이터를 사용하여 가우시안 혼합 모델의 인컨텍스트 분류를 위해 훈련될 때, 경사 하강법을 통해 전역 최소값으로 수렴함을 보여줍니다. 또한, 훈련된 트랜스포머의 추론 오류에 대한 상한을 설정하고 훈련 및 테스트 프롬프트 길이가 모델 성능에 미치는 영향을 분석합니다.
본 논문은 복잡하고 감성 변동이 심한 장문의 인프라 프로젝트 관련 문서에 대한 감성 분석 작업에서 대규모 언어 모델(LLM)의 성능을 평가하고, 데이터 오염이 미치는 영향을 분석합니다.