Download Linnk AI
•
Forskningsassistent
>
Log på
indsigt
-
독성 언어 예측기 견고성
견고한 독성 예측기 구축을 향하여
본 논문은 SOTA 독성 언어 예측기의 취약성을 드러내는 새로운 ToxicTrap 공격을 제안하고, 이를 통해 모델의 견고성을 높이는 방법을 제시한다.
1