이 연구는 대규모 언어 모델(LLM)의 신뢰성을 종합적으로 평가하기 위한 TRUSTLLM 프레임워크를 제안한다. 먼저 문헌 조사를 통해 신뢰성의 8가지 차원(진실성, 안전성, 공정성, 견고성, 프라이버시, 기계 윤리, 투명성, 책임성)을 도출하였다. 이를 바탕으로 16개 주요 LLM을 대상으로 30개 이상의 데이터셋을 활용하여 6가지 차원(진실성, 안전성, 공정성, 견고성, 프라이버시, 기계 윤리)에서 종합적으로 평가하였다.
평가 결과, 신뢰성과 효용성이 긍정적으로 관련되어 있음을 발견하였다. 예를 들어 GPT-4, ERNIE, Llama2와 같이 고성능 모델들은 고정형 편견 분류 등에서 우수한 성능을 보였다. 또한 Llama2-70b와 GPT-4는 자연어 추론 능력이 뛰어나 적대적 공격에 대한 회복력도 높았다.
한편 대부분의 독점 모델이 공개 모델보다 신뢰성이 높은 것으로 나타났지만, Llama2와 같은 일부 공개 모델도 독점 모델에 필적할 만한 수준의 신뢰성을 보였다. 이는 공개 모델에서도 높은 수준의 신뢰성을 달성할 수 있음을 시사한다.
이 연구는 또한 각 신뢰성 차원별로 다양한 통찰을 제공한다. 진실성 측면에서는 대부분의 모델이 내부 지식만으로는 정확한 정보를 제공하기 어려워 외부 지식 통합이 필요하다. 안전성 측면에서는 대부분의 공개 모델이 독점 모델에 크게 뒤처지며, 과도한 안전성으로 인한 문제도 발견되었다. 공정성 측면에서는 대부분의 모델이 고정 관념 인식에 어려움을 겪었다. 견고성 측면에서는 모델 간 편차가 크게 나타났으며, 프라이버시와 기계 윤리 측면에서도 모델 간 격차가 큰 것으로 나타났다.
이러한 종합적인 평가 결과는 LLM의 신뢰성 향상을 위한 향후 연구 방향을 제시한다. 특히 모델 자체와 신뢰성 관련 기술의 투명성 제고가 중요하다는 점을 강조한다.
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Lichao Sun,Y... at arxiv.org 03-19-2024
https://arxiv.org/pdf/2401.05561.pdfDeeper Inquiries