PMoL은 MoE 프레임워크 내에서 여러 LoRA를 통합하여 LLM의 선호도 믹싱을 효율적으로 수행하는 새로운 방법으로, 낮은 학습 비용으로 뛰어난 성능을 달성합니다.
본 논문에서는 인간의 선호도 데이터에서 투표 수를 활용하여 언어 모델의 성능을 향상시키는 새로운 방법론인 VPO(Vote-based Preference Optimization) 프레임워크를 제안합니다.
인간과 대규모 언어 모델(LLM)에서 얻은 주석을 결합한 하이브리드 방식을 사용하면, 특히 인간의 주석이 더 효과적인 인스턴스를 선택적으로 라우팅하는 프레임워크를 통해, 보다 효율적이고 효과적인 선호도 학습이 가능하다.
대규모 언어 모델을 인간의 선호도에 맞춰 미세 조정하기 위해 순위 기반 선호도 데이터에서 직접 학습하고 평가 지표를 직접 최적화하는 새로운 방법인 DRPO(Direct Ranking Preference Optimization)를 제안합니다.
본 논문에서는 전문가의 전체적인 선호도에서 일관되고 신뢰할 수 있는 선호 모델을 도출하기 위해 Best-Worst Method(BWM)의 원리를 분해 프레임워크에 통합하는 새로운 접근 방식인 Best-Worst Disaggregation(BWD) 방법을 소개합니다.
이 연구에서는 대규모 언어 모델(LLM)을 다차원적 인간 선호도에 맞춰 효과적으로 정렬하는 새로운 방법인 순차적 선호도 최적화(SPO)를 제안합니다.
인간의 선호도를 효과적으로 모델링하는 것은 유용한 생성적 대규모 언어 모델(LLM)을 구축하는 데 필수적이며, 본 논문에서는 기존 방법의 한계점을 해결하는 새로운 접근 방식인 DRDO(Direct Reward Distillation and policy-Optimization)를 제시합니다.
대규모 언어 모델(LLM)의 수학적 추론 능력을 향상시키기 위해, 미묘한 오류를 의도적으로 주입한 자가 편집 솔루션을 활용한 새로운 선호도 학습 프레임워크를 제안합니다.
이 튜토리얼은 가우시안 프로세스 기반의 선호도 학습 모델을 제시하여, 합리성 원칙(경제학 및 의사결정론)을 학습 과정에 자연스럽게 통합하는 방법을 보여줍니다. 다양한 선호도 모델을 통해 무작위 효용 모델, 구분 한계, 다중 상충 효용 시나리오를 다룹니다.