Linnk AI 다운로드
•
리서치 어시스턴트
>
로그인
통찰
-
독성 언어 예측기 견고성
견고한 독성 예측기 구축을 향하여
본 논문은 SOTA 독성 언어 예측기의 취약성을 드러내는 새로운 ToxicTrap 공격을 제안하고, 이를 통해 모델의 견고성을 높이는 방법을 제시한다.
1