다중 모달 RLHF의 핵심 성공 요인은 거부된 응답에서 얻는 부정적 감독이며, 이를 활용한 새로운 nSFT 방식은 지속적인 SFT로도 RLHF와 동등한 성능을 달성할 수 있음을 보여줍니다.