Studie: KI-Modelle verstehen nicht – sondern lernen auswendig

4
(1)

Eine Forschungsarbeit legt nahe, dass die verblüffenden Ergebnisse aktueller KI-Modelle eher auf das Auswendiglernen von Inhalten statt auf das Schlussfolgern der KI zurückzuführen sind. Kreativität ist also nur gedämpft möglich.

Können LLMs wirklich schlussfolgern?

Die in den Quellen vorgestellte Forschungsarbeit untersucht, ob große Sprachmodelle (LLMs) tatsächlich über abstrakte Denkfähigkeiten verfügen oder ob sie sich auf das Auswendiglernen spezialisierter Aufgaben aus dem Training verlassen. Die Ergebnisse zeigen, dass die Leistung von LLMs bei kontrafaktischen Aufgaben, die von den Standardannahmen abweichen, deutlich schlechter ausfällt als bei Standardaufgaben. Dies deutet darauf hin, dass LLMs zwar in gewissem Maße über abstrakte Problemlösungsfähigkeiten verfügen, sich aber oft auf enge, nicht übertragbare Verfahren stützen, anstatt ein tiefes Verständnis der Aufgaben zu entwickeln.

Die Ergebnisse zeigen, dass die Modelle Schwierigkeiten haben, auf Standardaufgaben trainiertes Wissen auf diese kontrafaktischen Aufgaben zu übertragen, auch wenn die zugrunde liegende Argumentationslogik ähnlich ist. Dies deutet darauf hin, dass die Modelle eher auf auswendig gelernte Muster als auf ein tiefes Verständnis der Aufgaben zurückgreifen.

Was heißt das für die Kreativität der LLMs?

Wahre Kreativität erfordert jedoch die Fähigkeit, Wissen flexibel auf neue und unerwartete Weise anzuwenden und neue und originelle Kombinationen von Konzepten zu schaffen. Die Anfälligkeit der Modelle für geringfügige Änderungen der Aufgabenstellung, wie z. B. die Änderung der Zahlenbasis5 oder die Verwendung einer anderen Indizierungskonvention6, unterstreicht ihre Abhängigkeit von oberflächlichen Merkmalen und ihre begrenzte Fähigkeit zur Generalisierung

Der Quelltext beschreibt eine Forschungsarbeit, die die Fähigkeiten und Grenzen von großen Sprachmodellen (LLMs) untersucht. Um zu beurteilen, ob LLMs wirklich schlussfolgern oder nur auswendig lernen, haben die Forscher „kontrafaktische Aufgaben“ entwickelt. Diese Aufgaben basieren auf bestehenden Benchmarks, verändern aber die Bedingungen oder Regeln, unter denen sie ausgeführt werden. 

Die Ergebnisse zeigen, dass LLMs, obwohl sie bei Standardaufgaben gute Leistungen erbringen, unter kontrafaktischen Bedingungen deutlich schlechter abschneiden. Dies deutet darauf hin, dass sich LLMs stark auf die Standardbedingungen verlassen und eher auswendig lernen als wirklich zu verstehen. Die Autoren argumentieren, dass die Leistung von LLMs bei Standard-Benchmarks nicht als Beweis für eine vollständige Aufgabenkompetenz angesehen werden sollte und plädieren für eine differenziertere Bewertung mit kontrafaktischen Aufgaben.

Beispiele für Standard- und kontrafaktische Aufgaben

Hier sind drei Beispiele dafür, wie sich die Leistung des Sprachmodells zwischen Standard- und kontrafaktischen Aufgaben unterscheidet, wie in den Quellen beschrieben:

  • Arithmetik: Sprachmodelle sind in der Lage, Standardaufgaben in der Arithmetik, wie z. B. Addition in Basis 10, gut zu lösen. Sie schneiden jedoch deutlich schlechter ab, wenn sie mit kontrafaktischen Aufgaben konfrontiert werden, wie z. B. Addition in Basis 9 oder anderen Basen, die nicht Basis 10 sind123. Dies deutet darauf hin, dass sich die Modelle möglicherweise auf auswendig gelernte Regeln für Standardaufgaben verlassen und nicht über die Fähigkeit zum abstrakten Denken verfügen, die für die Verallgemeinerung auf neue Kontexte erforderlich ist34.
  • Programmierung: Sprachmodelle schneiden bei Programmieraufgaben im Allgemeinen gut ab, z. B. beim Generieren von Python-Code. Wenn jedoch Anweisungen gegeben werden, Code mit einer anderen Indizierungskonvention (z. B. 1-basierte Indizierung anstelle von 0-basierter Indizierung) zu generieren oder auszuführen, nimmt ihre Leistung ab56. Dies zeigt, dass die Modelle zwar die Syntax und Semantik von Programmiersprachen lernen können, aber Schwierigkeiten haben, sich an Änderungen der zugrunde liegenden Annahmen anzupassen, die das Eingabe-Ausgabe-Mapping beeinflussen
  • Räumliches Denken: Sprachmodelle sind in der Lage, räumliche Beziehungen und Richtungen zu verstehen, wenn sie mit Standard-Koordinatensystemen bewertet werden. Wenn sie jedoch gebeten werden, Aufgaben mit getauschten, gedrehten oder zufällig permutierten Achsen durchzuführen, nimmt ihre Leistung ab57. Dies deutet darauf hin, dass die Modelle zwar räumliche Konzepte aus Textdaten lernen können, ihre Repräsentationen jedoch möglicherweise nicht robust genug sind, um verschiedenen Perspektiven oder Transformationen standzuhalten7.

Zusammenfassend lässt sich sagen, dass diese Beispiele die Tendenz von Sprachmodellen aufzeigen, sich Standardaufgaben und -kontexten anzupassen, die in ihren Trainingsdaten häufig vorkommen. Sie haben oft Schwierigkeiten, sich zu verallgemeinern und die gleiche Leistung bei kontrafaktischen Aufgaben zu erbringen, die von diesen Standardannahmen abweichen. Dies unterstreicht die Bedeutung der Bewertung der Fähigkeit von Sprachmodellen, über die Wiederholung auswendig gelernter Muster hinauszugehen, und die Bewertung ihrer Fähigkeit zum wirklichen Denken und zur Anpassung an neue Situationen39.

Und? Können KI-Modelle nun kreativ sein?

Diese Studie beschäftigt sich nicht mit Kreativität im engeren Sinne. Aber es lassen sich einige interessante Punkte ableiten, die für die Bewertung der Kreativität von KI relevant sein könnten:

  • Übertragbarkeit des Wissens: Die Ergebnisse zeigen, dass KI-Modelle Schwierigkeiten haben, auf Standardaufgaben trainiertes Wissen auf kontrafaktische Aufgaben zu übertragen, selbst wenn die zugrunde liegende Argumentationslogik ähnlich ist. Dies deutet darauf hin, dass die Modelle möglicherweise eher auf auswendig gelernte Muster als auf ein tiefes Verständnis der Aufgaben zurückgreifen. Kreativität hingegen erfordert die Fähigkeit, Wissen flexibel auf neue und unerwartete Weise anzuwenden.
  • Robustheit der Repräsentationen: Die Ergebnisse heben auch hervor, dass die Leistung von KI-Modellen bei kontrafaktischen Aufgaben oft durch geringfügige Änderungen der Aufgabe oder der Annahmen beeinträchtigt wird. Beispielsweise kann die Änderung der Zahlenbasis in einer arithmetischen Aufgabe oder die Verwendung einer anderen Indizierungskonvention beim Programmieren die Leistung der Modelle erheblich beeinflussen. Robuste Repräsentationen, die nicht auf oberflächlichen Merkmalen basieren, sind jedoch entscheidend für kreative Leistungen, die neue und originelle Kombinationen von Konzepten erfordern.

Fazit

Obwohl die Quellen also keine endgültigen Schlussfolgerungen darüber zulassen, ob KI-Modelle wirklich kreativ sein können, legen sie nahe, dass die Fähigkeit, über auswendig gelernte Muster hinauszugehen und Wissen flexibel und robust auf neue Situationen anzuwenden, entscheidend für Kreativität ist. Und da schwächeln ChatGPT & Co Also benötigen wir auch hier noch mehr Forschung – oder noch bessere KI-Modelle.

novelcrafter anzeige

Quelle: https://arxiv.org/pdf/2307.02477

Wie hilfreich war dieser Beitrag?

Klicke auf die Sterne um zu bewerten!

Durchschnittliche Bewertung 4 / 5. Anzahl Bewertungen: 1

Bisher keine Bewertungen! Sei der Erste, der diesen Beitrag bewertet.

Es tut uns leid, dass der Beitrag für dich nicht hilfreich war!

Lasse uns diesen Beitrag verbessern!

Wie können wir diesen Beitrag verbessern?


Kommentare

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert

Cookie Consent mit Real Cookie Banner