Dieser Artikel vergleicht die Leistung von GPT-3.5 in seiner unveränderten Form, einer feinabgestimmten Version und derselben unveränderten Version mit Zugriff auf eine vektorisierte RAG-Datenbank, sowohl isoliert als auch in Kombination mit einem einfachen, nicht-algorithmischen Systempromoter. Die Ergebnisse zeigen, dass die RAG-Methode sowohl die feinabgestimmte als auch die unveränderte Version übertrifft, und dass der Einsatz eines Systempromoters die Leistung jedes Ansatzes deutlich verbessert.
Sprachmodelle sind hervorragende Hypothesengeneratoren, aber zeigen auch Schwächen als induktive Denker, wenn es darum geht, die von ihnen selbst vorgeschlagenen Regeln anzuwenden und robust auf Beispielperturbationen zu reagieren.
Dieser Artikel untersucht zwei Ansätze der Entscheidungsfindung in der aktiven Inferenz - einen auf Planung basierenden Ansatz (DPEFE) und einen auf Lernen aus Erfahrung basierenden Ansatz (CL). Er führt ein gemischtes Modell ein, das die Stärken beider Ansätze nutzt, um eine ausgewogene Entscheidungsfindung zu ermöglichen.
Multimodale Großsprachmodelle (MLLMs) mit Chain-of-Thought-Reasoning (CoT) sind zwar robuster gegen bestehende Angriffsverfahren, aber eine neue Methode, der Stop-Reasoning-Angriff, kann diese zusätzliche Robustheit effektiv umgehen.
Ausführbarer Programmcode ermöglicht es LLM-Agenten, komplexe Aufgaben durch Nutzung bestehender Software-Pakete und selbstständiges Debuggen zu lösen.
Diese Studie präsentiert ein umfassendes Framework zur Bewertung der Vertrauenswürdigkeit großer Sprachmodelle, einschließlich Richtlinien für verschiedene Dimensionen der Vertrauenswürdigkeit, etablierter Benchmarks, Evaluierung und Analyse der Vertrauenswürdigkeit gängiger Sprachmodelle sowie Diskussion offener Herausforderungen und zukünftiger Forschungsrichtungen.
Das DCNFIS-Modell kombiniert die Stärken von tiefen neuronalen Netzen und Fuzzy-Logik, um ein hochleistungsfähiges und gleichzeitig erklärbares KI-Modell zu schaffen. Es übertrifft den Stand der Technik bei tiefen Fuzzy-Systemen und bietet transparente Erklärungen für seine Entscheidungen.
ROUTERBENCH ist ein neuartiger Bewertungsrahmen, der die Leistungsfähigkeit von LLM-Routing-Systemen systematisch bewertet. Das Benchmark-Tool umfasst einen umfangreichen Datensatz mit über 405.000 Inferenz-Ergebnissen repräsentativer LLMs, um die Entwicklung von Routing-Strategien zu unterstützen.
Kausalität ist ein fundamentaler Ansatz zum Verständnis von Zusammenhängen zwischen Ereignissen, Phänomenen und Ergebnissen in verschiedenen Fachbereichen. Der Artikel bietet einen Überblick über die Entwicklung der Kausalität in den letzten fünf Jahrzehnten, ihre Unterschiede zu anderen Ansätzen sowie die Voraussetzungen für ihre Anwendung. Außerdem wird die Interaktion der Kausalität mit neuen Ansätzen wie Künstliche Intelligenz, Generative KI, Maschinelles und Tiefes Lernen, Reinforcement Learning und Fuzzy-Logik untersucht.
Durch iteratives Bootstrapping können große Sprachmodelle ihre Schlussfolgerungsfähigkeiten selbstständig verbessern und präzisere sowie umfassendere Schlussfolgerungsketten generieren. Außerdem werden Beispiele mit angemessenem Schwierigkeitsgrad ausgewählt, um die Leistungsfähigkeit der Modelle bei Fragen unterschiedlicher Komplexität zu steigern.