Core Concepts
범주형 데이터를 효율적으로 표현하기 위해 잔여 비트 벡터(ResBit)를 제안한다. ResBit은 계층적으로 비트 표현을 획득하여 one-hot 벡터의 차원 증가 문제를 해결한다.
Abstract
이 논문에서는 범주형 데이터를 효율적으로 표현하기 위해 잔여 비트 벡터(ResBit)를 제안한다. 범주형 데이터를 표현하는 데 널리 사용되는 one-hot 인코딩은 차원이 선형적으로 증가하는 문제가 있다. 이는 특히 범주의 수가 많은 경우 계산 및 메모리 문제를 야기한다.
ResBit은 계층적으로 비트 표현을 획득하여 이 문제를 해결한다. 기존의 Analog Bits 방법과 유사하지만, ResBit은 범주형 데이터 생성 작업에서 발생하는 한계를 극복한다. 실험에서는 테이블 데이터 생성 시나리오를 중심으로 성능을 검증했다. 범주형 데이터의 양이 적은 경우에도 기존 방법과 유사한 성능을 유지하면서, 범주형 데이터의 양이 많은 경우 성능이 크게 향상되는 것을 확인했다.
Stats
범주형 데이터의 차원이 증가할수록 one-hot 인코딩의 메모리 사용량과 계산 복잡도가 크게 증가한다.
범주형 데이터의 차원이 높은 경우 TabDDPM과 같은 확산 모델 기반 방법의 성능이 저하된다.
ResBit은 계층적 비트 표현을 통해 차원 증가 문제를 해결하고, 범주형 데이터가 많은 경우에도 우수한 성능을 보인다.
Quotes
"범주형 데이터를 효율적으로 표현하기 위해 잔여 비트 벡터(ResBit)를 제안한다."
"ResBit은 계층적으로 비트 표현을 획득하여 one-hot 벡터의 차원 증가 문제를 해결한다."
"실험에서 ResBit은 범주형 데이터의 양이 많은 경우에도 우수한 성능을 보였다."