แนวคิดหลัก
확산 모델의 소유권을 보호하기 위해 모델의 게으른 레이어에 백도어를 삽입하여 미세 조정에도 강인한 식별자를 만드는 것이 핵심 아이디어이다.
บทคัดย่อ
이 연구는 확산 모델의 소유권 보호를 위한 새로운 방법을 제안한다. 기존의 백도어 기반 방법은 미세 조정 과정에서 백도어가 지워지는 문제가 있었다. 이를 해결하기 위해 저자들은 모델의 게으른 레이어에 백도어를 삽입하는 방법을 제안했다.
구체적으로 다음과 같은 내용을 다룬다:
- 모델 파라미터 업데이트 과정을 분석하여 일부 레이어(busy layer)가 미세 조정 성능에 크게 기여하는 것을 발견했다. 이러한 busy layer가 백도어 삭제의 주요 원인이 된다.
- 백도어를 모델의 특징 공간에 삽입하는 방법을 제안했다. 마스크 기반의 트리거 함수와 응답 함수를 설계하여 백도어의 비가시성과 생성 성능 유지를 달성했다.
- 임의의 레이어 쌍을 선택하는 AIAO 전략을 제안하여 busy layer의 영향을 줄였다. 이를 통해 미세 조정에도 강인한 백도어를 만들 수 있었다.
- 다양한 데이터셋에 대한 실험 결과, 제안 방법이 기존 방법보다 미세 조정 후에도 높은 백도어 검증 성능을 보였다.
สถิติ
미세 조정 후에도 제안 방법의 응답 성공률은 99% 이상을 유지했지만, 기존 방법들은 50% 수준으로 크게 감소했다.
제안 방법의 검증 성공률은 미세 조정 후에도 90% 이상을 유지했지만, 기존 방법들은 60% 수준으로 감소했다.
คำพูด
"우리의 통찰은 바쁜 레이어가 게으른 레이어보다 백도어 망각에 더 중요한 역할을 한다는 것이다."
"우리는 게으른 레이어에 백도어를 주입하고 바쁜 레이어의 개입을 줄이는 것으로 문제를 해결하고자 한다."