본 연구에서는 대규모 언어 모델(LLM)의 메모리 활용을 위한 새로운 방법을 제안한다. LLM은 자연어 처리 분야에서 큰 성과를 거두고 있지만, 학습 데이터에 대한 과도한 메모리로 인해 개인정보 유출 및 저작권 침해 등의 보안 위험이 존재한다. 이를 해결하기 위해 기존 연구에서는 고정 소프트 프롬프트를 활용하여 메모리를 추출하였지만, 입력 변화에 반응하지 못하는 한계가 있었다.
본 연구에서는 입력에 따라 동적으로 변화하는 소프트 프롬프트를 생성하는 변환기 기반 생성기를 제안한다. 이를 통해 기존 방법보다 정확하게 LLM의 메모리를 추출할 수 있다. 또한 변환기 블록을 아이덴티티 매핑으로 초기화하여 생성기의 효과적이고 강건한 학습을 가능하게 한다.
실험 결과, 제안 방법은 텍스트 생성 및 코드 생성 작업에서 기존 최신 기법 대비 최대 112.75%와 32.26%의 성능 향상을 보였다. 이를 통해 제안 방법이 LLM의 메모리 활용을 보다 정확하게 측정할 수 있음을 확인하였다.
إلى لغة أخرى
من محتوى المصدر
arxiv.org
الرؤى الأساسية المستخلصة من
by Zhepeng Wang... في arxiv.org 09-24-2024
https://arxiv.org/pdf/2409.13853.pdfاستفسارات أعمق