대형 언어 모델(LLM)이 효과적인 질문을 통해 정보를 능동적으로 탐색하도록 유도하는 불확실성 인지 계획 알고리즘(UoT)을 소개합니다. UoT는 정보 이득에 기반한 불확실성 기반 보상을 활용하여 모델이 불확실성을 최대한 줄이는 방식으로 정보를 탐색하도록 유도합니다.
본 연구는 소규모의 미세 조정된 오픈 소스 대형 언어 모델이 ChatGPT-4와 같은 대규모 모델과 동등하거나 더 뛰어난 성능을 달성할 수 있음을 입증하고, 대규모 사회과학 연구에서 오픈 소스 모델의 효율성과 재현 가능성을 강조합니다.
본 논문에서는 미군의 특수한 요구사항에 맞춰 미세 조정된 대형 언어 모델(LLM)인 TRACLM과 이를 평가하기 위해 개발된 MilBench 프레임워크를 소개합니다.
대형 언어 모델은 "A는 B이다"와 같이 학습된 지식을 "B는 A이다"와 같이 역으로 적용하는 데 어려움을 겪는 "역방향 저주" 현상을 보이며, 이는 모델 내부의 사고 편향과 훈련 데이터 구조의 영향을 크게 받는다.
Focused ReAct는 ReAct 프레임워크에 반복 및 조기 중단 메커니즘을 통합하여 질문에 대한 집중력을 유지하고 반복적인 동작을 방지하여 정확성과 효율성을 향상시킨 ReAct의 향상된 버전입니다.
대형 언어 모델(LLM)은 수학적 추론 과정에서 필요한 개별 지식을 갖추고 있음에도 불구하고, 함정이 있는 새로운 문제 상황에 직면했을 때 이를 조합하여 적용하는 능력이 부족하다.