AI 피드백 기반 강화학습(RLAIF)은 인간 피드백 기반 강화학습(RLHF)에 비해 비용과 시간이 적게 들지만, 모델 응답의 정확성과 진실성이 저하되는 문제가 있다. 이를 해결하기 위해 하이브리드 AI 피드백 기반 강화학습(HRLAIF) 기법을 제안하였으며, 이를 통해 모델의 유용성과 안전성을 향상시킬 수 있었다.
본 연구는 대화형 AI 모델의 성능을 향상시키기 위해 자체 생성 지침을 활용하는 방법을 제안한다. 이를 통해 대규모 비구조화된 데이터로부터 고품질의 지침-출력 쌍을 자동으로 생성하고 선별할 수 있다.
대화형 AI 모델의 성능 향상을 위해 보상 모델의 한계를 보완하는 대조적 보상 기법을 제안하고, 이를 통해 강화학습 성능을 크게 개선할 수 있음을 보여줌.
대화형 AI 모델의 인간 선호도 기반 강화학습 성능을 향상시키기 위해 대조적 보상을 활용하는 방법을 제안한다. 이를 통해 보상 모델의 불완전성을 보완하고 강화학습 과정의 강건성을 높일 수 있다.