Analyse der Leistung großer Sprachmodelle bei der Codezusammenfassung
Große Sprachmodelle wie Llama 2 zeigen eine sehr gute Leistung bei Aufgaben, die sowohl natürliche Sprache als auch Quellcode umfassen, insbesondere bei der Codezusammenfassung und Codegenerierung. Die Leistung dieser Modelle hängt jedoch oft von der Menge der (Subwort-)Tokenüberlappung zwischen dem Code und den entsprechenden Referenzbeschreibungen in den Datensätzen ab. Diese Tokenüberlappung entsteht, weil die Referenzbeschreibungen in Standarddatensätzen (entsprechend den Docstrings in großen Codebases) oft den Namen der beschriebenen Funktionen sehr ähnlich sind.