핵심 개념
LLM을 활용하여 Instagram 캡션을 합성하는 것은 스폰서 콘텐츠 탐지와 같은 과제에 도움이 될 수 있지만, 합성 데이터의 현실성과 유용성 사이에 상충관계가 존재한다.
초록
이 연구는 LLM(Large Language Model)인 chatGPT를 활용하여 Instagram 캡션을 합성하고, 이를 스폰서 콘텐츠 탐지 과제에 활용하는 것을 평가한다.
먼저 다양한 프롬프트 전략을 통해 합성 데이터를 생성하고, 이를 실제 Instagram 데이터와 비교한다. 캡션의 구성, 내용, 임베딩 유사성, 네트워크 특성 등 다양한 측면에서 분석한 결과, 합성 데이터는 실제 데이터의 복잡성과 다양성을 충분히 반영하지 못하는 것으로 나타났다. 특히 해시태그와 사용자 태그의 연결성, 감정 표현의 다양성 등에서 한계가 있었다.
다음으로 합성 데이터를 활용하여 스폰서 콘텐츠 탐지 모델을 학습시킨 결과, 공개된 스폰서 콘텐츠 탐지에는 도움이 되었지만 공개되지 않은 스폰서 콘텐츠 탐지에는 한계가 있었다. 이는 합성 데이터의 현실성과 유용성 사이의 상충관계를 보여준다. 즉, 현실성이 높은 데이터가 반드시 유용한 것은 아니며, 특정 과제에 최적화된 데이터가 필요할 수 있다.
이 연구는 LLM을 활용한 합성 데이터 생성의 가능성과 한계를 보여주며, 향후 이를 개선하기 위한 방향을 제시한다. 특히 다양성, 분포, 연결성 등의 측면에서 합성 데이터의 질적 향상이 필요하며, 현실성과 유용성의 균형을 고려해야 함을 강조한다.
통계
실제 Instagram 데이터의 평균 캡션 길이는 약 43단어로, 합성 데이터에 비해 매우 길다.
실제 데이터의 해시태그와 사용자 태그 사용 빈도가 합성 데이터보다 높다.
실제 데이터의 고유 해시태그와 사용자 태그 수가 합성 데이터보다 많다.
실제 데이터의 피부톤 다양성이 합성 데이터보다 높다.
실제 데이터의 해시태그와 사용자 태그 간 연결성이 합성 데이터보다 높다.
인용구
"LLM을 활용하여 Instagram 캡션을 합성하는 것은 스폰서 콘텐츠 탐지와 같은 과제에 도움이 될 수 있지만, 합성 데이터의 현실성과 유용성 사이에 상충관계가 존재한다."
"합성 데이터는 실제 데이터의 복잡성과 다양성을 충분히 반영하지 못하며, 특히 해시태그와 사용자 태그의 연결성, 감정 표현의 다양성 등에서 한계가 있었다."
"현실성이 높은 데이터가 반드시 유용한 것은 아니며, 특정 과제에 최적화된 데이터가 필요할 수 있다."