본 연구는 임상시험 보고서 데이터에 대한 자연어 추론 모델의 견고성과 신뢰성을 향상시키기 위해 새로운 평가 프레임워크를 제안한다. 이를 통해 모델의 일관성, 충실도 및 기존 F1 점수를 종합적으로 평가하여 실제 임상 환경에서의 적용 가능성을 높이고자 한다.