核心概念
본 연구에서는 단일 문맥 배치 샘플링 상황에서 언어 모델 추론을 위한 이중 주의 메커니즘을 제안한다. 이 접근법은 높은 배치 크기와 긴 문맥 길이에서 발생하는 과도한 메모리 I/O 비용을 줄이는 것을 목표로 한다.
要約
본 연구는 단일 문맥 배치 샘플링 상황에서 언어 모델 추론의 효율성을 높이기 위한 두 가지 전략을 제안한다.
- 일반화된 다중 쿼리 주의 메커니즘에 대한 분석:
- 다중 쿼리 주의 메커니즘은 모델 크기 증가에 따른 성능 척도 곡선이 부드럽게 나타난다.
- 주의 그룹 수 g를 낮추면 검증 손실 대 모델 크기 척도 곡선이 위로 이동한다.
- 이를 통해 추론 효율성과 모델 크기 간의 균형을 조절할 수 있다.
- 문맥 인식 이중 주의 메커니즘:
- 이 기법은 증분 디코딩 중 주의 메커니즘을 문맥 관련 부분과 디코딩 관련 부분으로 분리한다.
- 이를 통해 메모리 I/O 비용을 크게 줄일 수 있으며, 높은 배치 크기와 문맥 길이에서도 실시간 응답이 가능해진다.
- 예를 들어, CodeGen 16B 모델에서 배치 크기를 5에서 128로 늘리면 pass@k가 59.0%에서 84.6%로 향상되고, pass@top3 via mean log-p가 55.2%에서 58.1%로 향상된다.
統計
배치 크기 128, 문맥 길이 10,000인 경우 이중 주의 메커니즘을 사용하면 다중 주의 메커니즘 대비 약 4배 낮은 증분 디코딩 지연 시간을 달성할 수 있다.
이중 주의 메커니즘을 사용하면 문맥 길이에 따른 지연 시간 증가가 상대적으로 완만하다.
引用
"본 연구에서는 단일 문맥 배치 샘플링 상황에서 언어 모델 추론을 위한 이중 주의 메커니즘을 제안한다."
"이 접근법은 높은 배치 크기와 긴 문맥 길이에서 발생하는 과도한 메모리 I/O 비용을 줄이는 것을 목표로 한다."
"예를 들어, CodeGen 16B 모델에서 배치 크기를 5에서 128로 늘리면 pass@k가 59.0%에서 84.6%로 향상되고, pass@top3 via mean log-p가 55.2%에서 58.1%로 향상된다."