核心概念
Ein neuartiges zweiphasiges Framework (TnT-LLM) nutzt Große Sprachmodelle, um den Prozess der Taxonomie-Generierung und Textklassifizierung in großem Maßstab zu automatisieren und zu skalieren, mit minimalem menschlichen Aufwand.
要約
Die Studie präsentiert TnT-LLM, ein zweiphasiges Framework zur automatisierten Taxonomie-Generierung und Textklassifizierung unter Verwendung Großer Sprachmodelle (LLMs).
In der ersten Phase nutzt TnT-LLM einen nullstelligen, mehrstufigen Reasoning-Ansatz, um iterativ eine Taxonomie zu erstellen und zu verfeinern. In der zweiten Phase werden LLMs als Datenbeschrifter verwendet, um Trainingsdaten zu generieren, die dann zur Erstellung leichtgewichtiger, skalierbarer Klassifikatoren verwendet werden.
Die Autoren wenden TnT-LLM auf Konversationstranskripte von Bing Copilot an und zeigen, dass das Framework genauere und relevantere Taxonomien im Vergleich zu state-of-the-art-Baselines erstellt. Außerdem erreichen die leichtgewichtigen, auf LLM-Annotationen trainierten Klassifikatoren eine vergleichbare oder sogar bessere Leistung als direkt verwendete LLMs, bei deutlich höherer Skalierbarkeit und Modell-Transparenz.
Die Studie bietet auch praktische Erkenntnisse und Empfehlungen für den Einsatz von LLMs bei der großskaligen Textanalyse in realen Anwendungen.
統計
"Transforming unstructured text into structured and meaningful forms, organized by useful category labels, is a fundamental step in text mining for downstream analysis and application."
"Most existing methods for producing label taxonomies and building text-based label classifiers still rely heavily on domain expertise and manual curation, making the process expensive and time-consuming."
"This is particularly challenging when the label space is under-specified and large-scale data annotations are unavailable."
引用
"Transforming unstructured text into structured and meaningful forms, organized by useful category labels, is a fundamental step in text mining for downstream analysis and application."
"Most existing methods for producing label taxonomies and building text-based label classifiers still rely heavily on domain expertise and manual curation, making the process expensive and time-consuming."
"This is particularly challenging when the label space is under-specified and large-scale data annotations are unavailable."