핵심 개념
적은 수의 레이어를 가진 작은 트랜스포머 모델도 문장을 단일 토큰으로 압축하고 다시 압축을 풀어 원래 문장으로 복원하는 데 뛰어난 성능을 보인다.
초록
작은 트랜스포머, 문장 압축에서 뛰어난 성능 발휘
본 연구 논문에서는 자연어 처리 분야, 특히 문장 압축에서 트랜스포머 모델의 효율성에 대한 새로운 가능성을 제시합니다. 저자들은 일반적으로 방대한 크기를 자랑하는 언어 모델의 토큰 임베딩 크기가 실제로는 비효율적으로 크다는 점을 지적하며, 작은 트랜스포머 모델을 사용하여 문장을 단일 토큰으로 압축하고 다시 압축을 풀어 원래 문장으로 복원하는 실험을 진행했습니다.
본 연구의 주요 목표는 트랜스포머 모델이 문장과 같은 더 큰 텍스트 단위를 효율적으로 처리할 수 있는 잠재력을 확인하는 것입니다.
저자들은 BERT와 유사한 구조를 가진 1~3개의 레이어로 구성된 작은 트랜스포머 오토인코더를 사용했습니다. 모델은 인코더에서 문장을 단일 토큰으로 압축하고, 디코더에서 해당 토큰을 다시 원래 문장으로 복원하는 방식으로 학습되었습니다. 다양한 레이어 수, 토큰 임베딩 크기, 디코더 입력 배율을 실험하여 문장 복원 정확도에 미치는 영향을 분석했습니다.