GenARM은 자기회귀 보상 모델(Autoregressive RM)을 활용하여 테스트 시점에서 대규모 언어 모델(LLM)을 효율적으로 정렬하고, 기존 방식보다 뛰어난 성능과 효율성을 제공하며, 더 큰 모델을 정렬하기 위한 약-강(weak-to-strong) 지도 및 다중 목표 정렬을 가능하게 합니다.