본 연구는 임상시험 보고서에 대한 자연어 추론 작업에서 마스크드 언어 모델과 생성 언어 모델의 성능을 비교하였다. 마스크드 언어 모델 앙상블과 대규모 언어 모델 프롬팅 기법을 활용한 두 가지 접근법을 제안하였으며, 이를 통해 0.57의 F1 점수, 0.64의 충실도, 0.56의 일관성을 달성하였다.