본 논문에서는 저자원 언어에서 교차 언어 요약 작업을 수행하는 대규모 언어 모델(LLM)의 잠재력을 입증하고, 이를 위한 새로운 제로샷 메타 생성 기반 접근 방식인 SITR(Summarization, Improvement, Translation, and Refinement)을 제안합니다.
대규모 언어 모델(LM)이 사실 정보를 처리하는 방식에 대한 명확한 이해가 부족하며, 정확한 사실 회상, 추론, 단순 추측 등 다양한 예측 시나리오를 구분하여 분석해야 한다.
본 논문에서는 BERT 모델의 적대적 강건성을 향상시키기 위해 유니터리 가중치와 멀티 마진 손실을 결합한 새로운 방식인 UniBERT를 제안합니다.
대규모 언어 모델은 귀납적 추론 과정에서 규칙 기반 추론 능력은 부족하지만, 주어진 예시와 유사한 특징을 가진 이웃 사례를 활용하는 이웃 기반 추론에는 뛰어난 성능을 보인다.
본 논문에서는 사전 학습된 언어 모델에서 컨볼루션 신경망과 대조적 해싱을 사용하여 레이블이 지정되지 않은 구문 트리를 효율적으로 추출하는 방법을 제시합니다.
ChatGPT와 같은 생성형 AI 플랫폼 개발 초기부터 자연스러운 콘텐츠 생성에 힘써왔던 전문가로서, ChatGPT 사용 여부는 생각보다 쉽게 드러난다는 사실을 강조하고 있습니다.
교차 언어 AMR 파싱에서 메타 학습이 제한적인 성능 향상을 보여주지만, 특히 0-shot 학습을 제외하고는 공동 학습보다 나은 성능을 보장하지는 못한다.
대규모 언어 모델(LLM)의 효율적인 추론을 위해 KV 캐시와 히든 스테이트의 불확실성을 측정하여 압축률을 조정하는 새로운 방법인 UNComp를 제안합니다.
대규모 언어 모델은 프롬프트의 사소한 변화에도 매우 민감하게 반응하지만, 이에 대한 체계적인 평가 방법이 부족했다. 이 연구에서는 POSIX라는 새로운 프롬프트 민감도 지수를 제안하여 이를 해결하고자 한다.
언어 모델이 학습 데이터를 그대로 암기하는 문제를 해결하기 위한 다양한 기법을 제안하고 평가한다.