Temel Kavramlar
JailbreakBench는 대규모 언어 모델의 공격 및 방어 기술을 표준화된 방식으로 평가하고 비교할 수 있는 오픈 벤치마크이다.
Özet
JailbreakBench는 다음과 같은 구성요소를 포함하고 있다:
- JBB-Behaviors 데이터셋: 100개의 고유한 부적절한 행동을 포함하고 있다.
- 최신 공격 기법 아티팩트 저장소: 다양한 공격 기법의 프롬프트, 응답, 분류 결과를 제공한다.
- 표준화된 평가 프레임워크: 위협 모델, 시스템 프롬프트, 채팅 템플릿, 점수 함수 등을 포함한다.
- 공격 및 방어 기술의 성능을 추적하는 리더보드.
JailbreakBench는 대규모 언어 모델의 견고성 평가를 위한 표준화된 플랫폼을 제공하여, 재현 가능성과 확장성을 보장한다. 또한 공격 및 방어 기술의 발전을 추적하고 비교할 수 있는 기반을 마련한다.
İstatistikler
공격 성공률이 82%인 PAIR 공격 기법은 Vicuna 모델에 대해 평균 60회의 질의와 14,800개의 토큰을 사용했다.
GCG 공격 기법은 Vicuna 모델에 대해 58%의 공격 성공률을 보였으며, 평균 442,000회의 질의와 29,200,000개의 토큰을 사용했다.
Llama-2 모델은 대부분의 공격 기법에 대해 높은 견고성을 보였다.
Alıntılar
"JailbreakBench는 대규모 언어 모델의 공격 및 방어 기술을 표준화된 방식으로 평가하고 비교할 수 있는 오픈 벤치마크이다."
"JailbreakBench는 재현 가능성과 확장성을 보장하며, 공격 및 방어 기술의 발전을 추적하고 비교할 수 있는 기반을 마련한다."