Conceptos Básicos
ROME 모델 편집 기법을 사용할 때 발생하는 모델 붕괴 문제를 해결하고, 안정적인 순차적 모델 편집을 가능하게 하는 새로운 구현 방법을 제안한다.
Resumen
이 논문은 ROME(Rank-One Model Editing) 모델 편집 기법을 사용할 때 발생하는 모델 붕괴 문제를 해결하는 방법을 제안한다.
- 모델 붕괴를 일으키는 "disabling edits"를 식별하기 위해 두 가지 지표(행렬 업데이트 크기, 생성 엔트로피)를 사용하여 분석을 수행했다.
- CounterFact 데이터셋을 사용할 때는 disabling edits가 발생하지만, zsRE 데이터셋을 사용할 때는 발생하지 않는다는 것을 발견했다.
- 기존 ROME 구현의 문제점을 파악하고, 새로운 구현(r-ROME)을 통해 disabling edits 문제를 해결했다.
- r-ROME을 사용하여 대규모 순차적 모델 편집을 수행한 결과, 모델 성능 저하 없이 안정적인 편집이 가능함을 보였다.
Estadísticas
모델 편집 시 행렬 업데이트 크기(|∆|)가 매우 큰 경우 모델 붕괴가 발생한다.
CounterFact 데이터셋을 사용할 때 |∆|가 매우 큰 편집이 관찰되지만, zsRE 데이터셋을 사용할 때는 그렇지 않다.
Citas
"Disabling edits are detrimental for knowledge editing at scale. While a gradual model degradation is expected as we make sequential edits to a model (Gupta et al., 2024), disabling edits lead to a sudden model collapse irrespective of when the disabling fact is edited, making sequential editing impossible."
"To our absolute surprise, we found that our re-implementation of ROME does not lead to disabling edits. The first evidence of this can be seen in Figure 3, where the |∆| of the updates are orders of magnitude smaller for our implementation when compared to the original implementation."