본 논문에서는 제한된 계산 예산 내에서 최적의 성능을 내는 텍스트 임베딩 모델을 만들기 위해 사전 훈련된 디코더 전용 언어 모델을 활용하여 계산 비용을 최소화하면서 효율적으로 임베딩 모델을 미세 조정하는 방법을 연구합니다.
Asterisk*는 대규모 사전 훈련된 모델에서 지식 증류를 통해 컴팩트한 크기를 유지하면서도 다양한 분류 작업에서 우수한 성능을 달성하는 GPT 기반 텍스트 임베딩 모델이다.
트랜스포머 기반 모델에서 텍스트 길이가 증가함에 따라 임베딩 공간이 축소되는 현상이 발생하며, 이는 셀프 어텐션 메커니즘의 저역 통과 필터 효과 증가로 인해 발생한다. 본 논문에서는 이러한 현상을 완화하기 위해 템퍼러처 스케일링(TempScale)이라는 새로운 기법을 제안한다.
대규모 언어 모델(LLM)에서 생성된 텍스트 임베딩은 입력 텍스트의 핵심 토큰과 밀접하게 연관되어 있으며, 이는 LLM이 텍스트의 의미를 효과적으로 포착하고 있음을 시사한다.
본 논문에서는 CLIP 모델에서 텍스트 임베딩 생성 시 각 토큰의 중요도를 차별적으로 조정하여 이미지 분류 및 검색 작업의 성능과 해석 가능성을 향상시키는 SToRI 프레임워크를 제안합니다.
본 논문에서는 고품질의 해석 가능한 의미론적 텍스트 임베딩을 생성하는 CQG-MBQA 프레임워크를 제안하며, 이는 대조적 질문 생성(CQG)을 통해 생성된 이진 질문에 대한 답변을 임베딩 차원으로 활용합니다.