본 연구 논문에서는 사이버 공격 및 허위 정보 유포와 같은 적대적 환경에서 LLM 출력의 책임 소재를 규명하는 문제를 다룬다.
LLM 출력을 형식 언어로 모델링하고, Gold가 도입하고 Angluin이 확장한 '한계적 언어 식별' 이론을 사용하여 유한 텍스트 샘플만으로 원본 모델을 고유하게 식별할 수 있는지 분석한다.
특정 언어 클래스는 식별 가능하지 않기 때문에, 미세 조정된 모델의 출력이 겹치는 경우 출력을 특정 LLM에 확실하게 귀속시키는 것은 이론적으로 불가능하다. 이는 Transformer 아키텍처의 표현력 제한을 고려하더라도 마찬가지이다. 직접 모델 접근이나 포괄적인 모니터링을 통해서도 상당한 계산적 어려움으로 인해 속성 노력이 방해받는다.
LLM 생태계를 나타내는 데이터 세트를 사용하여 시간 경과에 따른 모델 크기의 증가를 분석하고, 가능도 기반 속성 계산의 실질적인 타당성을 평가한다. 결과적으로 현재 누적 모델 크기에서 100,000 토큰의 적대적 공격을 처리하려면 약 8.7 × 10^20 FLOPs가 필요하며, 이는 세계에서 가장 빠른 슈퍼컴퓨터인 Frontier의 용량을 사용하더라도 단일 공격에 대해 약 8분이 소요되는 방대한 계산량이다.
미국 내 LLM 사용 데이터를 기반으로 하는 포괄적인 국가 모니터링 프레임워크 내에서 적대적 출력을 특정 LLM에 귀속시키는 것의 타당성을 평가한다. 현실적인 시뮬레이션과 데이터를 사용하여 연간 생성되는 데이터 양은 약 17.45 페타바이트에 달하며, 이를 처리하는 데 필요한 시간은 이상적인 조건에서도 약 265.6시간(약 11일)으로 추정된다.
네트워크 역학으로 인해 발생하는 문제는 속성 가능성에 영향을 미친다. 공격자는 네트워크 구조를 악용하여 연결을 다시 연결하거나 위조 노드를 도입하여 탐지를 회피하고 신원을 숨길 수 있다. 또한 Kleinberg와 Mullainathan의 연구에 따르면 속성은 어렵지만 생성 한계는 실제로 달성 가능하다. 즉, 컴퓨터 에이전트가 대상 언어를 명시적으로 식별하지 않고도 유효한 새 문자열을 생성할 수 있다는 것이다. 이는 완전한 모델 속성의 필요성을 우회한다는 점에서 언어 식별과 근본적으로 다르다.
결론적으로 적대적 출력에 대한 접근 제한, 모델에 대한 직접 접근 또는 포괄적인 모니터링 프레임워크 내에서도 특정 출력을 개별 LLM에 귀속시키는 것은 매우 어려운 과제로 남아 있다. LLM이 점점 더 강력해지고 널리 보급됨에 따라 속성의 복잡성은 심각한 우려를 불러일으킨다. 이는 LLM을 대중이 광범위하게 접근할 수 있도록 하기 전에 강력한 안전 프로토콜과 규제 조치를 통해 위험을 완화하는 것이 시급함을 강조한다.
Naar een andere taal
vanuit de broninhoud
arxiv.org
Belangrijkste Inzichten Gedestilleerd Uit
by Manuel Cebri... om arxiv.org 11-13-2024
https://arxiv.org/pdf/2411.08003.pdfDiepere vragen