단순화된 텍스트에 대해 언어 모델들이 일관되지 않은 예측을 보이며, 이는 심각한 문제로 이어질 수 있다.
LLM은 단순 긍정문과 부정문을 잘 처리하지만, 양태와 조건문과 같은 가설적 문장 처리에 어려움을 겪는다.
대형 언어 모델은 이전에 생성한 응답들 중에서 가장 적절한 것을 선택하는 능력이 직접 좋은 응답을 생성하는 능력보다 뛰어나지 않다.
LLM(Large Language Model)들은 복잡한 구조화된 표 생성에 어려움을 겪고 있으며, 이를 개선하기 위한 새로운 벤치마크와 평가 방법이 필요하다.
대형 언어 모델은 관련 없는 정보에 의해 쉽게 오도될 수 있으며, 특히 의미적으로 관련된 정보에 취약하다.
언어 모델이 문맥에 따라 대명사를 일관되게 사용할 수 있는지 평가하고, 모델의 편향, 반복, 추론 능력을 분석한다.
언어 모델은 특정 과제에 대한 기본 조건에 과도하게 의존하며, 추상적이고 일반화 가능한 추론 능력이 제한적이다.
대형 언어 모델은 질문에 대한 답변을 생성할 때 관련성 있는 증거를 선별하는 데 어려움을 겪는다. 이 연구는 대형 언어 모델이 증거의 유용성을 판단할 수 있는지 평가하고, 유용성 판단에 영향을 미치는 요인을 분석한다.
대형 언어 모델은 표면적으로 유사한 문장들의 의미 차이를 정확히 구분하지 못하며, 특히 인과관계가 포함된 문장에 대해 편향된 판단을 내린다.
협상 게임을 통해 언어 모델의 성능과 정렬을 동시에 평가할 수 있다.