이 연구는 이미지 캡셔닝, 얼굴 인식, 명사구 매칭의 3단계 파이프라인을 제안한다.
이미지 캡셔닝 단계에서는 인코더-디코더 아키텍처를 사용하여 이미지에 대한 일반적인 캡션을 생성한다.
얼굴 인식 단계에서는 MTCNN과 Resnet을 사용하여 이미지에 나타난 얼굴을 검출하고 분류한다.
마지막으로 명사구 매칭 단계에서는 NLP 패키지와 규칙을 사용하여 생성된 캡션의 명사구를 얼굴 인식 단계에서 얻은 이름으로 대체한다.
이러한 파이프라인을 통해 뉴스 보도 시나리오에서 이미지에 나타난 유명인사의 이름을 포함한 캡션을 생성할 수 있다. 이는 자동화된 뉴스 콘텐츠 생성을 향상시키고 정보 전달을 더욱 세밀하게 할 수 있다.
На другой язык
из исходного контента
arxiv.org
Дополнительные вопросы