核心概念
Großsprachmodelle können die Auswirkungen von Interventionen auf kausale Beziehungen in Graphen mit mäßiger bis hoher Genauigkeit vorhersagen, sind aber anfällig für ablenkende Faktoren in den Eingabeaufforderungen.
要約
Die Studie untersucht die Fähigkeit von Großsprachmodellen (LLMs), die Auswirkungen von Interventionen auf kausale Beziehungen in gerichteten azyklischen Graphen (DAGs) vorherzusagen. Dazu werden drei Benchmarks erstellt, die verschiedene Arten von kausalen Graphen (bivariat, konfundierend, Mediation) und Variablentypen abdecken.
Die Ergebnisse zeigen, dass einige LLMs, insbesondere GPT-4-Varianten, vielversprechende Genauigkeit bei der Vorhersage von Interventionseffekten erreichen. Allerdings sind die Modelle anfällig für ablenkende Faktoren in den Eingabeaufforderungen, wie z.B. bekannte kausale Beziehungen, die die Modelle möglicherweise auswendig gelernt haben. Dies unterstreicht die Notwendigkeit, Benchmarks sorgfältig zu entwerfen, um verlässliche Schlussfolgerungen über die kausale Schlussfolgerungsfähigkeit von LLMs zu ziehen.
統計
Die Genauigkeit von GPT-4 bei der Vorhersage von Interventionseffekten liegt bei bis zu 100% auf dem Random-Benchmark.
Die Genauigkeit von LLaMA-2 liegt bei nur 50-70% auf dem Random-Benchmark, was darauf hindeutet, dass es bei interventionsbasiertem Schlussfolgern Schwierigkeiten hat.
Wenn die Eingabeaufforderungen bekannte kausale Beziehungen enthalten, sinkt die Genauigkeit der sonst leistungsstarken GPT-Modelle deutlich, was auf die Anfälligkeit für Ablenker hinweist.
引用
"Großsprachmodelle zeigen vielversprechende Genauigkeit bei der Vorhersage von Interventionseffekten, sind aber anfällig für ablenkende Faktoren in den Eingabeaufforderungen."
"Die Ergebnisse unterstreichen die Notwendigkeit, Benchmarks sorgfältig zu entwerfen, um verlässliche Schlussfolgerungen über die kausale Schlussfolgerungsfähigkeit von LLMs zu ziehen."