Intelligenz-Schwund bei ChatGPT?

Donnerstag, 10. August 2023 von Oliver Schwartz

Offene Fragen nach Stanford-Studie

Intelligenz-Schwund bei ChatGPT?

Intelligenz ist typischerweise nicht abhängig von der Tagesform. Auch sehr intelligente Menschen können übermüdet sein oder aus anderen Gründen dumme Entscheidungen treffen. Aber ihre Intelligenz ist keine Frage von Uhrzeit oder Situation. Künstliche Intelligenz ist in aller Munde, ihre erstaunlichen generativen Fähigkeiten – aber auch ihre Limitationen. Abhängig vom Sprachmodell, dem Umfang der Trainingsdaten für das Maschinelle Lernen und den nachträglichen Regel-Eingriffen überzeugt die KI vor allem durch ihre Geschwindigkeit, die Fähigkeit umfangreiche Dokumente zu analysieren und die Möglichkeit gleich mehrere Aufgabenschritte mittels kaskadierenden Prompts zu automatisieren. Eine große Zahl von Entwicklern setzt mit ihren Anwendungslösungen auf den API-Zugriff von einigen wenigen Sprachmodellen. Denn fast alle Tools auf denen KI draufsteht verfügen nicht über eigenentwickelte Intelligenz, sondern sind mehr oder weniger gelungene User-Interfaces, um sich die Fähigkeiten von Sprachmodellen wie GPT 3.5, GPT 4.0 oder LLAMA 2 zu Nutze zu machen.

Sowohl aus Sicht von Unternehmen wie von Anwendern, aber auch aus Sicht der Entwickler-Landschaft ist es wichtig, das reproduzierbare Verhalten sowie Stärken und Limitationen der Sprachmodelle zu kennen. Dass sich die Modelle in ihrem Output unterscheiden, liegt in der Natur der Sache, denn sie wurden mit unterschiedlichen Schwerpunkten trainiert. Auch der Unterschied in den Ergebnissen bei identischer Aufgabenstellung, mal auf Deutsch und mal auf Englisch, ist nachvollziehbar – denn ChatGPT wurde auch auf deutschen Trainingsdaten angelernt. Anders als Meta, die mit LLAMA auf Open-Source setzen, umgibt die Lösungen von OpenAI ein geheimnisvoller Nebel, denn viele Details zu GPT 3.5 und vor allem GPT 4.0 sind Betriebsgeheimnis. Dennoch sollte ChatGPT eine Aufgabe mit Abstand von Wochen oder Monaten mit identischer oder sehr ähnlicher Bravour erledigen. Erste Zweifel daran hat es früh gegeben und eine aktuelle, noch nicht mittels Peer-Review qualitätsgesicherte, Studie aus dem Stanford-Umfeld untermauert vorerst diese Beobachtungen. Und die ratlose Reaktion von OpenAI verunsichert die Szene.

Was schwächt die Sprachmodelle?

Kann es sein, dass ein blitzgescheites KI-System plötzlich „dumm“ wird? Wohl kaum. Denn Künstliche Intelligenz hat derzeit ja noch weit mehr mit Wahrscheinlichkeitsrechnung und großen Mengen an Trainingsdaten zu tun als mit menschlichen Stärken und Schwächen. Warum sollte ChatGPT im August zu anderen, vor allem wesentlich schlechteren, Ergebnissen kommen als im März? Und das sowohl bei GPT 3.5 wie auch bei GPT 4.0? Generell gibt es eine Experten-These, dass eine Art „Inzucht“ die Sprachmodelle schwächen kann, wenn sie künftig mit Dokumenten trainiert werden, die sie selber erzeugt haben. Die Schwäche von ChatGPT, der Datenstand von 2021, wäre nach dieser Theorie auch ein Vorteil. Denn machen wir uns nichts vor, im Internet und selbst in gedruckten Publikationen finden sich seit den letzten Monaten immer mehr Inhalte, die ganz oder teilweise mit Hilfe der Künstlichen Intelligenz erzeugt wurden. Fließen diese nun vermehrt in die Trainingsdaten ein, verwässert sich die Qualität. So wie wenn Wikipedia sich als Quelle ständig bei sich selber bedienen würde. Diese These ist plausibel, kann aber die Ergebnisse der Stanford-Untersuchung nicht erklären.

Weitere Theorien ranken sich um das nachträgliche Verstellen von Stellschrauben seitens OpenAI. Das Team um Sam Altman bestreitet bislang größere Veränderungen, gibt aber bei GPT 4.0 noch nicht einmal mehr die genau Anzahl der Kriterien bekannt. So wird vermutet, dass zwischenzeitlich weiter nachjustiert worden ist, damit ChatGPT keine „politisch inkorrekten“ Ergebnisse generiert und vor allem sich nicht dazu verführen lässt, Anleitungen zu Straftaten oder Betrügereien auszuspucken. Eine solche nachträgliche Filterebene kann natürlich die Ergebnisse verändern – ist aber bei vielen Aufgabenstellungen nicht wirklich eine schlüssige Erklärung. Denn schon beim Erkennen von Primzahlen oder der Überprüfung von Programmiercode ermittelten die Stanford-Forscher eine auffallende Verdummung unserer Lieblings-KI.

Diva oder Arbeitsbiene?

Die schmallippige bis ratlose Reaktion der OpenAI-Entwickler hat dann schnell Raum für eine weitere Theorie gelassen: Jede Aufgabenstellung an ChatGPT verursacht nicht unerhebliche Kosten. Nicht nur das Maschinelle Lernen und Antrainieren der Sprachmodelle ist teuer, sondern auch der operative Betrieb – insbesondere die benötigten Serverleistungen. Könnte es also sein, dass zur Kostenersparung klammheimlich die Komplexität und die Anzahl der Kriterien gesenkt worden sind? Es mag nicht verwundern, dass im Umfeld von Elon Musk ein solcher Verdacht kolportiert wird. Überzeugend ist das bislang nicht, denn eine solche Maßnahme wäre gerade bei GPT 4.0, für dass die Nutzer ja im Rahmen ihrer Mitgliedschaft bezahlen, eine Enttäuschung – aber es wäre auch aus Marketingsicht und zur Sicherstellung der Finanzierung von Weiterentwicklung und Massenmarkt eher kurzsichtig.

So ominös die derzeitigen „Intelligenz-Schwankungen“ von ChatGPT also sind, so wenig werden es die Gelegenheitsnutzer negativ bemerken. Für alle diejenigen Entwickler aber, die ein Geschäftsmodell auf der Nutzung der Sprachmodelle aufbauen und natürlich für Unternehmen und Branchenanwendungen ist es mehr als relevant, wie verlässlich sie auf GPT 4.0 vertrauen können. Provokant gesprochen: Eine temporär hyperintelligente Diva ist weniger wertvoll als eine auf gute Intelligenz getrimmte, fleißige Arbeitsbiene.

Die aktuelle Untersuchung der Stanford-Forscher ist weniger ein Erdbeben oder eine Gefahr für die weitere Erfolgsgeschichte von ChatGPT, sondern eine weitere Facette in der ohnehin in Fachkreisen laufenden Debatte, wie sich eine Intelligenzverwässerung vermeiden lässt und die Qualität der generierten Inhalte auf hohem Niveau kontinuierlich reproduzierbar bleibt. Nicht zuletzt können, so eine weitere These, auch die Anwender selber zur „Verdummung“ beitragen. Denn natürlich berücksichtigt gerade GPT 4.0 die Prompts und Folge-Prompts der Anwender. Zu viele skurrile, nicht ernstgemeinte Aufgabenstellungen könnten die sensible KI verwirren. Auch die Zuschaltung des Internet-Zugriffs gilt es in der Auswirkung auf den IQ der KI genau zu beobachten. Da ist es wieder wie beim Menschen: Zu viel skurriler Medien-Konsum, jenseits von Wissenssendungen, und zu viel Internet-Konsum, vor allem in Social-Media, machen nicht unbedingt schlauer.

Sind Sie nach diesem Debatten-Beitrag neugierig auf die erwähnte Stanford-Studie? Den Stand vom 1. August 2023 der Arbeit der Wissenschaftler von Standford und Berkeley (Lingjiao Chen, Matei Zaharia und James Zou) können Sie hier vollständig als PDF abrufen und nachlesen:
https://arxiv.org/pdf/2307.09009.pdf

#stanfordstudie #intelligenzschwund #chatgpt #kuenstlicheintelligenz #sprachmodell #maschinelleslernen #gpt3.5 #gpt4.0 #openai #sprachmodelle #theorien #samaltman #elonmusk #intelligenzschwankungen #hyperintelligent #diva #arbeitsbiene #intelligenzverwaesserung #socialmedia #medien #einfluss

-Promotion-