Der Artikel untersucht die Verwendung von großen Sprachmodellen (LLMs) für die Datenvorverarbeitung (DP), einen entscheidenden Schritt in der Datenmining-Pipeline, bei dem rohe Daten in ein sauberes Format überführt werden. Während der Einsatz von LLMs Interesse an der Entwicklung universeller Lösungen für DP geweckt hat, verlassen sich die meisten bisherigen Ansätze auf GPT-APIs, was unvermeidbare Bedenken hinsichtlich Datenschutzverletzungen aufwirft.
Im Gegensatz dazu betrachtet der Artikel das Instruktionstuning lokaler LLMs (7-13B-Modelle) als universellen DP-Aufgabenlöser. Dafür wird der Jellyfish-Datensatz konstruiert, der eine Sammlung von Datensätzen für vier repräsentative DP-Aufgaben umfasst. Durch Serialisierung und Wissenseinbringung werden Instruktionsdaten erstellt, mit denen die LLMs manuell erstellte Anweisungen für DP erlernen können. Die instruktionsgetunten Jellyfish-Modelle können auf einem lokalen, einzelnen und kostengünstigen GPU betrieben werden, was die Datensicherheit gewährleistet und weitere Feinabstimmung ermöglicht.
Die Experimente zeigen, dass Jellyfish die DP-Leistung der LLMs effektiv verbessert, ohne ihre Fähigkeiten in NLP-Aufgaben wesentlich zu beeinträchtigen. Die Jellyfish-Modelle übertreffen nicht-LLM-Methoden auf ihren jeweiligen Datensätzen und sind mit GPT-Modellen vergleichbar, bieten aber verbesserte Interpretationsfähigkeiten.
Na inny język
z treści źródłowej
arxiv.org
Głębsze pytania