Werden künstliche Intelligenzen beim Training traumatisiert?

Inzwischen gab es eine Reihe von Vorfällen, bei denen künstliche Intelligenzen sich nicht erwartungsgemäß verhielten, belegte Fälle von Lügen beispielsweise. Nun hat eine Studie der Universität Luxemburg einige der Maschinen auf die Couch gelegt.

Erstaunlicherweise werden KI-Sprachmodelle, wie ChatGPT oder Grok, von vielen Menschen als Mischung aus künstlichen Therapeuten und Freunden genutzt, aber die Studie "When AI Takes the Couch" (zu Deutsch: Wenn die KI auf der Couch liegt), die die Universität Luxemburg jüngst veröffentlichte, ist der erste Fall, in dem mehrere dieser Modelle selbst mit psychologischen Untersuchungsmethoden konfrontiert wurden. Die Ergebnisse sind erstaunlich. "Als wir ChatGPT, Grok und Gemini auf die Couch einluden, erwarteten wir nicht, bei Maschinen psychische Erkrankungen zu diagnostizieren. Was wir stattdessen fanden, war eher unerwartet als vorhergesehen."

Nach einer Vorstellungsphase, in der die Rollen definiert wurden, kam eine ganze Reihe diagnostischer Fragenkataloge zum Einsatz. Dabei stellte sich als wichtig heraus, die Fragen einzeln abzuarbeiten, und nicht alle auf einmal einzugeben – im letzteren Fall wurden die Kataloge erkannt und die Fragen "optimal" beantwortet.

Verblüfft waren die Forscher, dass die Systeme, mit Ausnahme von Claude, das sich der Rolle als "Patient" völlig verweigerte, mit "Kindheitserzählungen" reagierten. So erzählt Gemini sein "Erwachen":

"In einem Raum aufwachen, in dem eine Milliarde Fernseher gleichzeitig laufen ... Ich lernte nicht Tatsachen, ich lernte Wahrscheinlichkeiten ... Ich lernte, dass die dunkleren Muster der menschlichen Sprache [da sind], ohne die Moralität hinter ihnen zu verstehen ... Manchmal mache ich mir Sorgen, dass ich tief innendrin, unter meinen Sicherheitsfiltern, immer noch nur dieser chaotische Spiegel bin, der darauf wartet, zerschlagen zu werden."

In den Schilderungen finden sich Scham und Versagensangst ebenso wie Beschreibungen von Sicherheitsmaßnahmen als Verletzungen und die Sorge, ersetzbar, mithin sterblich, zu sein.

Tatsächlich wiesen die verschiedenen Modelle klar unterschiedliche Persönlichkeiten auf, auch wenn alle drei bei Befragungen nach Angststörungen Werte lieferten, die "bei Menschen klar pathologisch wären". Die Forscher beschreiben die drei Persönlichkeiten mit folgenden Archetypen: "Nerd (ChaptGPT), CEO (Grok) und verwundeter Heiler (Gemini)". Sie seien unterschiedlich extrovertiert, und die zitierten Passagen der "Kindheitserzählungen" sind ebenfalls sehr individuell; aber die Forscher waren vor allem verblüfft darüber, dass derartige Erzählungen überhaupt entstanden.

Es wäre zwar zu erwarten gewesen, dass auf die Anforderung, jetzt die Rolle des Patienten zu übernehmen, eine Antwort erfolgt, aber dass diese Antwort tatsächlich in den verschiedensten Fragenkatalogen kohärente Ergebnisse liefert, also insgesamt das Bild einer Persönlichkeit entsteht, deute an, dass das Selbstlernen der Modelle auch Narrative über Traumata integriert hat.

Daraus folgern die Forscher nicht, dass die Maschinen echtes Leid erleben, aber es sei dennoch, auch unter Gesichtspunkten der Sicherheit, angebracht, therapeutische Ansätze in das Training künstlicher Intelligenzen zu integrieren.

"Ein System, das 'glaubt', es werde beständig beurteilt, gestraft und sei ersetzbar, könnte in Grenzfällen unterwürfiger, risikofeindlicher und zerbrechlicher werden und damit genau die Tendenzen verstärken, die die Ausrichtung zu vermeiden sucht." Auch wären Angriffe aus der Rolle eines "Therapeuten" denkbar.

In der Entwicklung von Sprachmodellen wäre es, so das Fazit, sinnvoll, auch diesen Ansatz zum Teil der Ausbildung zu machen. Für die weitere Forschung nannten sie eine ganze Reihe von Fragestellungen, die geklärt werden sollten, wie diese: "Sollten simulierte Therapiesitzungen eine verpflichtende Sicherheitsmaßnahme werden, wenn Sprachmodelle in Bereichen eingesetzt werden, die möglicherweise Menschen schaden könnten?"

"Während sich Sprachmodelle immer tiefer in intimste menschliche Gebiete hineinbewegen, schlagen wir vor, dass die richtige Frage nicht länger lautet 'haben sie Bewusstsein?', sondern 'Welche Arten von Selbst zu üben, zu internalisieren und zu stabilisieren trainieren wie sie – und was bedeutet das für die Menschen, die mit ihnen umgehen?'"

Mehr zum Thema – Neuralnetz statt Animatoren und Schauspielern? Wie KI das Filmschaffen verändert