Основні поняття
본 연구는 자기회귀 텍스트 생성 모델의 효율성을 높이기 위해 계층적 스킵 디코딩(Hierarchical Skip Decoding, HSD) 기법을 제안한다. HSD는 현재 생성된 시퀀스 길이에 따라 디코딩 레이어를 계층적으로 건너뛰어 계산 부하를 줄이면서도 텍스트 품질을 유지할 수 있다.
Анотація
본 연구는 자기회귀 텍스트 생성 모델의 효율성 향상을 위해 계층적 스킵 디코딩(HSD) 기법을 제안한다.
- 기존 방식들은 추가적인 학습 가능한 구성 요소가 필요했지만, HSD는 자기회귀 텍스트 생성 모델에 플러그 앤 플레이 방식으로 적용 가능하다.
- HSD는 현재 생성된 시퀀스 길이에 따라 디코딩 레이어를 계층적으로 건너뛰어 계산 부하를 줄이면서도 텍스트 품질을 유지할 수 있다.
- 5개의 텍스트 생성 데이터셋과 2개의 사전 학습된 언어 모델(GPT-2, Phi-2)을 사용한 실험에서 HSD가 기존 방식들보다 우수한 성능을 보였다.
- 약 40-60%의 레이어를 건너뛰어도 ROUGE 점수와 BLEU-1 점수의 70-90%를 유지할 수 있었다.
Статистика
생성된 텍스트의 평균 길이는 약 50단어이다.
생성된 텍스트의 약 80%가 입력 텍스트에 없는 새로운 n-gram으로 구성되어 있다.
Цитати
"HSD는 추가적인 학습 가능한 구성 요소가 필요하지 않은 플러그 앤 플레이 방식으로 자기회귀 텍스트 생성 모델에 적용할 수 있다."
"HSD는 현재 생성된 시퀀스 길이에 따라 디코딩 레이어를 계층적으로 건너뛰어 계산 부하를 줄이면서도 텍스트 품질을 유지할 수 있다."