인공지능 시스템의 내부 작동 원리를 이해하는 것은 가치 정렬과 안전을 보장하는 데 매우 중요하다. 이 리뷰는 기계론적 해석가능성이라는 접근법을 탐구하며, 이는 신경망의 계산 메커니즘과 표현을 인간이 이해할 수 있는 알고리즘과 개념으로 역공학하여 세부적이고 인과적인 이해를 제공한다.