핵심 개념
DeTikZify는 스케치나 기존 그림을 입력으로 받아 TikZ 그래픽 프로그램을 자동으로 생성하는 multimodal language model로, 과학 그림 제작을 위한 새로운 접근 방식을 제시합니다.
초록
DeTikZify: 스케치 및 과학 그림을 위한 TikZ 그래픽 프로그램 자동 생성 모델 분석
이 연구 논문에서는 스케치나 기존 그림을 입력으로 받아 TikZ 그래픽 프로그램을 자동으로 생성하는 multimodal language model인 DeTikZify를 소개합니다.
본 연구의 목표는 과학 그림 제작의 어려움을 해결하고, 기존의 벡터 그래픽 형식으로 저장되지 않은 그림을 재현하는 데 드는 시간과 노력을 줄이는 것입니다.
DeTikZify는 사전 학습된 vision encoder와 language model을 결합하여 구축되었습니다. Vision encoder는 그림이나 스케치를 입력 이미지로 받아들이고, language model은 해당하는 TikZ 프로그램을 출력으로 생성합니다.
본 연구에서는 세 가지 새로운 데이터셋을 구축했습니다.
DaTikZv2: 36만 개 이상의 사람이 만든 TikZ 그래픽을 포함하는 대규모 TikZ 데이터셋입니다.
SketchFig: 손으로 그린 스케치와 해당하는 과학 그림을 쌍으로 구성한 데이터셋입니다.
MetaFig: 다양한 과학 그림과 관련 메타데이터 모음입니다.
DeTikZify는 MetaFig와 DaTikZv2, 그리고 SketchFig에서 학습한 합성 스케치를 사용하여 학습되었습니다. 또한, 추가 학습 없이 DeTikZify가 출력을 반복적으로 개선할 수 있도록 MCTS 기반 추론 알고리즘을 도입했습니다.