이 논문은 언어 모델 추론 가속화를 위한 조기 종료 방법인 ConsistentEE를 제안한다. 기존 조기 종료 방법들은 학습 단계에서 모든 내부 분류기가 모든 인스턴스를 정확하게 예측하도록 요구하지만, 추론 단계에서는 한 개의 내부 분류기만 정확하게 예측하면 된다. 이로 인해 학습과 추론 단계 사이에 불일치가 발생한다.
ConsistentEE는 조기 종료 과정을 강화 학습 문제로 정식화하여 이 문제를 해결한다. 정책 네트워크를 도입하여 각 중간 레이어에서 종료 여부를 결정한다. 학습 목표는 각 인스턴스가 한 개의 내부 분류기에 의해 정확하게 예측되도록 하는 것이다.
또한 ConsistentEE는 인스턴스의 난이도를 측정하는 새로운 개념인 "Memorized Layer"를 도입하여 보상 함수에 반영한다. 이를 통해 난이도가 낮은 인스턴스는 가속화에 더 집중하고, 난이도가 높은 인스턴스는 정확도에 더 집중할 수 있도록 한다.
실험 결과, ConsistentEE는 다양한 자연어 이해 및 생성 작업에서 기존 방법들보다 우수한 성능을 보였다.
翻译成其他语言
从原文生成
arxiv.org
更深入的查询