본 논문에서는 제한된 데이터 환경에서 특정 작업에 대한 대규모 언어 모델(LLM)의 성능을 향상시키기 위해 동적 경사 정렬(DGA)이라는 새로운 온라인 데이터 믹싱 방법을 제안합니다.
대규모 언어 모델(LLM)은 다중 도메인 기계 번역에서 잠재력이 있지만, 도메인 적응 및 미세 조정 과정에서 과적합 및 치명적 망각 문제가 발생할 수 있다. 본 연구에서는 도메인 특정 힌트를 활용한 CoT(Chain of Thought) 미세 조정 기법을 제안하여 LLM의 다중 도메인 번역 성능과 도메인 외 견고성을 향상시킨다.
본 논문에서는 대규모 언어 모델(LLM)의 어텐션 메커니즘을 활용하여 기존 생성 기반 방법보다 효율적인 제로샷 재순위 모델을 제시합니다.
대규모 언어 모델(LLM)의 뛰어난 성능에도 불구하고, 훈련 데이터 암기는 심각한 프라이버시 및 보안 위험을 초래할 수 있으며, 이를 완화하기 위한 다양한 측정 방법, 영향 요인, 완화 전략 및 향후 연구 방향을 제시한다.
대규모 언어 모델(LLM)은 생성 중간에도 응답을 다시 생성하면 더 나은 결과를 얻을 수 있는지 여부를 예측하여 추론 시간 연산을 최적화하고 더 나은 응답을 생성할 수 있다.
대규모 언어 모델(LLM)은 자연어 처리 분야에서 괄목할 만한 발전을 이루었지만, 주로 순차적 텍스트 데이터 처리에 설계되었습니다. 그러나 현실 세계의 많은 시나리오에서는 텍스트 데이터가 그래프 형태의 풍부한 구조 정보와 연결되어 있습니다. 이 논문에서는 그래프에 LLM을 적용하는 시나리오와 기술을 체계적으로 검토하고, 순수 그래프, 텍스트 속성 그래프, 텍스트 쌍 그래프의 세 가지 범주로 분류합니다. 또한 LLM을 예측기, 인코더, 정렬기로 활용하는 방법을 자세히 논의하고, 각 모델의 장단점을 비 비교합니다.
대규모 언어 모델은 뛰어난 언어 능력을 보이지만, 인간과 유사한 추론 편향을 드러내며 진정한 추론 능력은 여전히 부족하며, 특히 형식적 추론 능력 향상을 위한 추가적인 연구가 필요하다.
Re-TASK 프레임워크는 Bloom의 분류법과 지식 공간 이론을 기반으로 LLM 과제를 기능, 기술, 지식 관점에서 재고찰하여 CoT의 한계를 극복하고 도메인 특정 작업에서 LLM 성능을 향상시키는 것을 목표로 합니다.
StateAct는 대규모 언어 모델(LLM)의 장기 추론 능력을 향상시키기 위해 퓨샷 학습, 목표 상기, 명시적 상태 추적을 활용하는 새로운 LLM 에이전트입니다.
본 논문에서는 대규모 언어 모델(LLM)의 심층 추론 능력을 향상시키기 위해 구조 인식 계획과 정확한 세계 모델을 활용하는 새로운 프레임워크인 SWAP(Structure-aware Planning with Accurate World Model)을 제안합니다.