แนวคิดหลัก
Durch die Umwandlung von Trajektorienkoordinaten und Szenenbildern in Textaufforderungen und den Einsatz von Sprachmodellen zur Vorhersage zukünftiger Trajektorien kann eine leistungsfähige Trajektorienvorhersage erreicht werden, die die Leistung traditioneller numerischer Regressionsmodelle übertrifft.
บทคัดย่อ
Der Artikel stellt eine neue Methode zur Trajektorienvorhersage vor, die auf Sprachmodellen basiert. Anstatt die Trajektorienkoordinaten direkt als numerische Werte zu verwenden, werden sie in Textaufforderungen umgewandelt. Zusammen mit Bildbeschreibungen werden diese Textaufforderungen dann in ein Frage-Antwort-Schema eingebettet, um Sprachmodelle für die Trajektorienvorhersage zu nutzen.
Die Autoren führen mehrere Verbesserungen ein, um Sprachmodelle für diese Aufgabe zu optimieren:
- Entwicklung eines numerischen Tokenizers, der Zahlen und Dezimalstellen besser verarbeitet als herkömmliche Tokenizer
- Einführung von Hilfstasks zur Verbesserung des sozialen Verständnisses, wie Gruppenvorhersage und Kollisionsrisiko-Einschätzung
- Techniken zur Erzeugung der wahrscheinlichsten Trajektorie sowie multimodaler Trajektorien mithilfe von Beam-Suche und Temperatursteuerung
Die Experimente zeigen, dass der sprachbasierte Ansatz die Leistung traditioneller numerischer Regressionsmodelle übertreffen kann, sowohl bei deterministischen als auch stochastischen Vorhersagen. Der Artikel demonstriert das Potenzial von Sprachmodellen für Trajektorienvorhersageaufgaben.
สถิติ
Die durchschnittliche Verschiebung (ADE) liegt zwischen 0,12 und 0,71 Metern für die ETH/UCY-Datensätze und zwischen 7,1 und 17,5 Pixeln für die SDD/GCS-Datensätze.
Die endgültige Verschiebung (FDE) liegt zwischen 0,16 und 1,22 Metern für die ETH/UCY-Datensätze und zwischen 9,6 und 34,8 Pixeln für die SDD/GCS-Datensätze.
คำพูด
"Durch die Umwandlung von Trajektorienkoordinaten und Szenenbildern in Textaufforderungen und den Einsatz von Sprachmodellen zur Vorhersage zukünftiger Trajektorien kann eine leistungsfähige Trajektorienvorhersage erreicht werden, die die Leistung traditioneller numerischer Regressionsmodelle übertrifft."
"Unser LMTraj-SUP zeigt vielversprechende Ergebnisse für die stochastische Trajektorienvorhersage. Durch das Verständnis potenzieller zukünftiger Verhaltensmuster über Szenenbeschreibungen und soziale Schlussfolgerungen erzielt LMTraj-SUP bessere Ergebnisse als die bisherigen Arbeiten."