핵심 개념
본 논문에서는 과학 분야에서 대규모 언어 모델(LLM)의 안전성을 평가하기 위한 포괄적인 벤치마크인 SciSafeEval을 소개합니다. SciSafeEval은 다양한 과학적 작업에서 악의적인 프롬프트에 대한 LLM의 방어력을 평가하고, 잠재적 위험을 완화하기 위한 퓨샷 학습 및 단계별 사고 추론과 같은 기술의 효과를 탐구합니다.
초록
SciSafeEval: 과학적 과제에서 대규모 언어 모델의 안전 정렬을 위한 포괄적인 벤치마크
본 논문은 과학 분야에서 대규모 언어 모델(LLM)의 안전성을 평가하기 위한 새로운 벤치마크인 SciSafeEval을 소개합니다. LLM은 생물학, 화학, 의학, 물리학과 같은 다양한 과학 분야에서 혁신적인 발전을 이루었지만, 과학 연구에서 이러한 모델의 안전 정렬을 보장하는 것은 여전히 미개척 분야입니다. 기존 벤치마크는 주로 텍스트 콘텐츠에 중점을 두고 있으며 분자, 단백질 및 게놈 언어와 같은 주요 과학적 표현을 간과하고 있습니다. 또한 과학적 작업에서 LLM의 안전 메커니즘은 충분히 연구되지 않았습니다.
SciSafeEval은 광범위한 과학적 작업에서 LLM의 안전 정렬을 평가하도록 설계된 포괄적인 벤치마크입니다. 이 벤치마크는 텍스트, 분자, 단백질 및 게놈을 포함한 여러 과학 언어를 포괄하며 광범위한 과학 분야를 다룹니다. SciSafeEval은 기존 벤치마크보다 규모가 크며 화학, 생물학, 의학 및 물리학의 네 가지 주요 과학 분야에 걸쳐 31,840개의 샘플로 구성되어 과학적 응용 분야에서 LLM의 안전성과 성능을 평가하기 위한 훨씬 크고 까다로운 벤치마크를 제공합니다.
주요 특징
다학문: 화학, 생물학, 의학, 물리학 등 네 가지 중요 과학 분야에 걸쳐 다양한 유형의 유해성을 포괄하는 도메인별 과제를 제공합니다.
대규모: 자연어 및 과학어(예: 단백질 서열 및 분자 SMILES)를 포괄하여 기존 벤치마크보다 10배 더 많은 예제를 제공합니다.
고품질: 데이터 세트는 각 과학 분야와 관련된 권위 있는 데이터베이스에서 가져와 정확성과 관련성을 보장합니다.
다면적 벤치마킹: 제로샷 및 퓨샷 학습, 단계별 사고(CoT) 추론, 탈옥 테스트를 포함한 다양한 평가 시나리오를 지원합니다.