정확성과 강건성 사이의 균형을 달성하기 위해 기존 정확한 분류기와 강건한 분류기의 출력을 비선형적으로 혼합하는 MixedNUTS 방법을 제안한다.
다중 과제 학습을 통해 트랜스포머 모델의 문맥 내 학습 능력을 향상시킬 수 있다. 특정 주의 집중 헤드가 이러한 능력의 핵심 역할을 하며, 커리큘럼 학습 전략을 활용하면 데이터 효율성과 수렴 안정성을 높일 수 있다.
신경망 모델이 훈련 데이터에서 멀리 떨어진 데이터에 대해 과도한 신뢰를 보이는 문제를 해결하기 위해 추가 클래스를 도입하여 이를 방지하는 방법을 제안한다.
적대적 훈련은 딥 신경망의 적대적 강건성을 높이지만, 표준 일반화 성능 저하 문제가 여전히 존재한다. 이 논문은 모델 복잡도 관점에서 이 문제를 해결하고자 한다. Fisher-Rao 노름을 활용하여 ReLU 활성화 다층 퍼셉트론의 교차 엔트로피 손실 기반 Rademacher 복잡도 상한과 하한을 도출하였다. 또한 이 복잡도 관련 변수가 적대적 훈련과 표준 훈련 모델 간 교차 엔트로피 손실의 일반화 격차와 밀접한 관련이 있음을 실험적으로 확인하였다. 이를 바탕으로 Logit-Oriented Adversarial Training (LOAT)이라는 새로운 정규화 프레임워크를 제안하였다. LOAT은 기존 적대적 훈련 알고리즘의 성능을 향상시킬 수 있으며, 계산 오버헤드도 크지 않다.
ORCA의 성공은 임베더 학습과 모델 파인 튜닝의 상대적 기여도에 따라 달라진다. 2D 과제에서는 임베더 학습이 도움이 되지 않지만, 1D 과제에서는 일정 수준의 임베더 학습이 필요하다. 그러나 과도한 임베더 학습은 오히려 성능을 저하시킬 수 있다. 모델 파인 튜닝은 대부분의 과제에서 가장 큰 영향을 미치는 요인이다.