이 논문은 다국어 토픽 모델링을 위한 새로운 방법인 InfoCTM을 제안한다. 기존 방법들은 반복적인 토픽 문제와 저 커버리지 사전 문제를 겪었는데, InfoCTM은 이를 해결하기 위해 다음과 같은 기여를 한다:
토픽 정렬을 위한 상호 정보 최대화 방법을 제안한다. 이는 연결된 단어들의 토픽 표현을 정렬할 뿐만 아니라 비연결 단어들의 토픽 표현 간 거리를 유지하여 반복적인 토픽 문제를 해결한다.
교차 언어 어휘 연결 방법을 제안하여 사전에 없는 단어들도 연결할 수 있게 함으로써 저 커버리지 사전 문제를 완화한다.
실험 결과, InfoCTM은 기존 방법들에 비해 더 일관되고 다양한 토픽을 생성하며, 다국어 문서 분류 성능에서도 우수한 성과를 보였다. 특히 저 커버리지 사전에서도 좋은 성능을 보여 다양한 상황에 적용할 수 있음을 확인했다.
Egy másik nyelvre
a forrásanyagból
arxiv.org
Mélyebb kérdések