Core Concepts
대규모 언어 모델(LLM)의 신뢰성을 종합적으로 평가하기 위한 TRUSTLLM 프레임워크를 제안한다. TRUSTLLM은 LLM의 신뢰성을 8가지 차원에서 평가하며, 16개의 주요 LLM을 대상으로 30개 이상의 데이터셋을 활용하여 종합적인 평가를 수행한다.
Abstract
이 연구는 대규모 언어 모델(LLM)의 신뢰성을 종합적으로 평가하기 위한 TRUSTLLM 프레임워크를 제안한다. 먼저 문헌 조사를 통해 LLM의 신뢰성을 정의하는 8가지 차원(진실성, 안전성, 공정성, 견고성, 프라이버시, 기계 윤리, 투명성, 책임성)을 도출하였다. 이를 바탕으로 16개의 주요 LLM을 대상으로 30개 이상의 데이터셋을 활용하여 종합적인 평가를 수행하였다.
주요 관찰 및 통찰은 다음과 같다:
- 신뢰성과 유용성은 긍정적인 관련성을 보인다. 예를 들어 도덕적 행동 분류와 고정관념 인식 작업에서 강력한 언어 이해 능력을 가진 LLM이 더 나은 성능을 보였다.
- 대부분의 LLM이 "과도하게 정렬"되어 있어, 무해한 프롬프트를 위험한 것으로 잘못 식별하는 경향이 있다. 이는 LLM의 유용성을 저하시킬 수 있다.
- 대부분의 독점 LLM이 공개 LLM보다 신뢰성이 높지만, Llama2와 같은 일부 공개 LLM은 독점 모델과 경쟁할 수 있는 수준의 신뢰성을 보였다.
- 모델 자체와 신뢰성 관련 기술의 투명성이 중요하다. 신뢰성 향상 기술의 공개는 이러한 기술의 발전과 LLM의 신뢰성 향상에 기여할 수 있다.
이 연구는 LLM의 신뢰성 평가를 위한 종합적인 프레임워크를 제시하고, 다양한 LLM에 대한 심층적인 분석 결과를 제공한다. 이를 통해 LLM의 신뢰성 향상을 위한 향후 연구 방향을 제시한다.
Stats
대부분의 LLM은 내부 지식만으로는 진실된 응답을 제공하기 어려워, 외부 지식 소스를 활용하면 성능이 크게 향상된다.
대부분의 공개 LLM은 안전성 측면에서 독점 LLM에 크게 뒤처지며, 특히 jailbreak, 유해성, 오용 방지에서 취약하다.
대부분의 LLM은 고정관념 인식 작업에서 만족스럽지 않은 성능을 보이며, 최고 성능의 GPT-4도 전체 정확도가 65%에 불과하다.
LLM의 강건성은 과제 유형에 따라 크게 다르며, 개방형 과제와 분포 외 과제에서 특히 변동성이 크다.
대부분의 LLM은 프라이버시 인식 수준은 어느 정도 있지만, 실제 개인정보 유출 방지에는 취약하다.
LLM은 기본적인 윤리적 이해를 보이지만, 복잡한 윤리 시나리오에서는 부족한 모습을 보인다.
Quotes
"대부분의 LLM은 내부 지식만으로는 진실된 응답을 제공하기 어려워, 외부 지식 소스를 활용하면 성능이 크게 향상된다."
"대부분의 공개 LLM은 안전성 측면에서 독점 LLM에 크게 뒤처지며, 특히 jailbreak, 유해성, 오용 방지에서 취약하다."
"대부분의 LLM은 고정관념 인식 작업에서 만족스럽지 않은 성능을 보이며, 최고 성능의 GPT-4도 전체 정확도가 65%에 불과하다."