인공지능 모델은 프라이버시 취약점을 야기할 수 있으며, 이를 해결하기 위해 다양한 프라이버시 보호 기술(PETs)의 활용이 필요하다.
인공지능 보안 연구와 실제 인공지능 사용 간의 격차를 해소하기 위해 실용적인 위협 모델을 개발해야 한다.
적대적 공격은 합성곱 신경망이 학습한 개념의 구성을 크게 변화시키며, 이를 통해 모델의 예측을 교란시킨다. 또한 적대적 교란은 소수의 선형 성분으로 분해될 수 있으며, 이 성분들은 공격의 성공에 핵심적인 역할을 한다.
대규모 언어 모델(LLM)의 급속한 확산에 따른 보안 위험을 체계적으로 분석하고, 이해관계자별 맞춤형 대응 방안을 제시한다.
대규모 언어 모델(LLM)의 보안 취약점과 위험을 체계적으로 분석하고 이해관계자별 완화 전략을 제시한다.
본 연구는 독립 벡터 분석(IVA), 다중 집합 정준 상관 분석(MCCA), 병렬 인자 분석(PARAFAC2) 등의 고급 텐서 분해 알고리즘을 활용하여 사전 학습된 심층 신경망의 가중치를 면밀히 분석하고, 백도어가 삽입된 모델과 깨끗한 모델을 효과적으로 구분하는 새로운 접근법을 제시한다.
AutoDefense는 다중 에이전트 방어 프레임워크로, LLM의 감옥 탈출 공격에 대한 방어를 강화합니다.
음향 DNN 모델을 속이는 강력한 백도어 공격의 새로운 접근 방식 소개
현재의 대형 언어 모델 워터마크 방식은 도용에 취약하며, 더 견고한 방식이 필요하다.
악의적인 주장자가 독립적인 모델에 대해 거짓 주장을 성공적으로 할 수 있는 취약점을 밝힘.