언어 모델 미세 조정 시 메모리 요구사항이 높아지는 문제를 해결하기 위해 제로 차수 최적화 방법에 분산 감소 기법을 결합한 새로운 알고리즘 MeZO-SVRG를 제안한다. MeZO-SVRG는 전체 배치와 미니 배치 정보를 활용하여 안정적이고 빠른 수렴 성능을 보인다.
본 연구에서는 검색 기반 생성 모델의 성능과 효율성을 동시에 향상시키는 새로운 프롬프팅 기법인 "Superposition Prompting"을 제안한다. 이 기법은 기존 언어 모델의 구조를 활용하여 문맥 정보를 병렬적으로 처리하고 불필요한 정보를 효과적으로 제거함으로써 정확도와 속도를 모두 개선할 수 있다.
조기 종료 방법인 ConsistentEE는 학습 및 추론 단계에서 일관성을 유지하며, 인스턴스의 난이도에 따라 정확도와 가속화 사이의 균형을 동적으로 조절할 수 있다.
전문가 혼합 언어 모델의 밀도 학습과 희소 추론을 통해 계산 및 매개변수 효율성을 향상시킬 수 있다.
본 연구는 기존 Transformer 모델의 계산 복잡도를 크게 낮추면서도 성능을 유지할 수 있는 DiJiang이라는 새로운 주파수 영역 커널화 기법을 제안한다. 가중치가 부여된 준-몬테카를로 샘플링과 이산 코사인 변환을 활용하여 선형 복잡도의 주의 메커니즘을 구현함으로써, 대규모 언어 모델의 학습 및 추론 비용을 크게 절감할 수 있다.
언어 모델 표현의 등방성을 조절하여 모델 성능을 향상시킬 수 있다.
주의력 계산의 고유한 희소성을 이론적으로 분석하고, 이를 통해 주의력 계산 알고리즘의 효율성을 개선할 수 있는 방안을 제시한다.
변환기 모델은 입력 시퀀스에 걸쳐 계산을 균일하게 분배하지만, 이 연구에서는 변환기가 시퀀스 내 특정 위치에 계산을 동적으로 할당하는 방법을 제안한다. 이를 통해 전체 계산 예산 내에서 성능을 향상시킬 수 있다.
작은 언어 모델의 성능을 향상시키기 위해 다중 에이전트 협업 튜닝 프레임워크를 제안하였다. 이 프레임워크는 에이전트 간 협력 학습과 실시간 적응을 통해 문맥 인식 및 장기 기억력을 향상시킨다.
대규모 사전 학습된 언어 모델의 내부 가중치에 직접 접근하지 않고도 작은 모델을 통해 효율적으로 맞춤화할 수 있는 프록시 튜닝 기법을 제안한다.