Don’t Fall in Love with ChatGPT! Eine Replik

In ihrem Beitrag „Falling in Love with ChatGPT? Warum wir soziale Phänomene der Mensch-Maschine-Interaktion und die Gestaltung von Hochschulen als innovative Lernorte und Blended Universities mit KI neu denken sollten“ diagnostizieren unsere Kollegen Michael Siegel und Oliver Janoschka zutreffend, dass der Diskurs über ChatGPT und generative KI an Hochschulen bislang zu eingeschränkt geführt wird und zu stark auf rein anwendungsorientierte Fragestellungen ausgerichtet ist. Sie machen darauf aufmerksam, dass insbesondere die Nutzung von KI-Chatbots auch eine soziale Dimension besitzt und stellen auf der Grundlage verschiedener Befunde die These auf, dass das „dialogische Design des Chatbots zwischen Maschine und Mensch […] auch unter sozialen Gesichtspunkten zuweilen deutlich attraktiver als die Interaktion zwischen Mensch und Mensch [zu sein scheint]“. Wir sind sehr dankbar für diesen Denkanstoß, möchten uns aber auch um eine kritische Einordnung der These bemühen und ihr eine weitere These gegenüberstellen: Sollten Mensch-Maschine-Interaktionen tatsächlich als attraktiver wahrgenommen werden als Mensch-Mensch-Interaktionen, muss das als ein massiver Warnruf an Gesellschaft und Hochschulen erkannt werden, da eine Maschine kein Ersatz für genuin menschlich-soziale Interaktionen ist und es auch absehbar niemals sein kann.

Der Film „her“: Eine Kritik an Mensch-Maschine-Beziehungen

Gehen wir zunächst einen Schritt zurück. Der Beitrag beginnt mit einer Referenz auf den Film „her“:¹ Im Film verliebt sich der Protagonist Theodore in eine KI seines Betriebssystems namens Samantha. Die thematisch passende Referenz verzichtet jedoch auf eine Einordnung des filmischen Gesamtkontextes. So zeigt der Film zu Beginn, dass Theodore für ein Unternehmen namens Beautiful Handwritten Letters arbeitet, welches mithilfe ausgefeilter Technologie täuschend echt wirkende, vermeintlich handgeschriebene Briefe in der Handschrift ihrer Auftraggeber produziert. Die Kunden sind also Menschen, die ihre kostbare Zeit nicht für etwas derart „Profanes“ wie das Schreiben von Briefen verschwenden möchten: Hier gibt der Film einen ersten Hinweis darauf, dass Menschen mithilfe von Technologie sowohl bewusst täuschen als sich auch von ihr täuschen lassen.

Ob die KI in „her“ ein tatsächliches Bewusstsein hat und damit ein Gegenüber ist, lässt der Film offen. Er thematisiert aber an vielen Stellen die Defizienz einer Mensch-Maschine-Beziehung, etwa wenn Theodore sich im Schlafzimmer liegend Samanthas physische Präsenz wünscht oder ein Sexualkontakt mit einer Surrogatpartnerin ihn verstört zurücklässt. Der Film endet mit einem Abschied Theodores von der KI und einer Schlussszene, in der er mit einer menschlichen Partnerin, seiner ebenfalls von ihrer Beziehung zu einer KI enttäuschten Nachbarin Amy, Kopf an Schulter den Sonnenaufgang über der Stadt betrachtet, was als klarer Hinweis auf die Überlegenheit von Mensch-Mensch- gegenüber Mensch-Maschine-Beziehungen gelesen werden kann. Diese Einordnung bleibt der Beitrag uns allerdings schuldig, die Betrachtung bleibt somit in der Mitte des Films stehen.

Die Befundlage

Als Hinweise auf ihre These führen Siegel und Janoschka zwei Befunde an: Eine Studie der University of California San Diego, die belegen soll, dass Patienten mit den medizinischen Antworten von ChatGPT in 79 Prozent der Fälle unter qualitativen und empathischen Gesichtspunkten zufriedener seien als mit der Antwort echter Ärzte, sowie eine Aussage von Ludwig Lorenz, einem studentischen Digital ChangeMaker im Hochschulforum Digitalisierung, in einem Hangout mit Prof. Dr. Christian Spannagel.

Studie der UC San Diego trifft keine Aussage zur Patientenzufriedenheit

Betrachten wir zunächst die erwähnte Studie: Hier wurde eine Art medizinischer Turing-Test durchgeführt. Die Stichprobe lieferte das Board r/AskDocs auf der Social-Media-Plattform Reddit, auf der – laut Reddit-Moderatoren auf ihre medizinische Qualifikation geprüfte – Ärzte in ihrer Freizeit medizinische Fragen von Reddit-Nutzern beantworten. Zufällig wurden 195 medizinische Fragen aus diesem Board ausgewählt und ChatGPT zur Beantwortung gegeben. Ein Panel aus drei „licensed healthcare professionals“² verglich anschließend verblindet die Antworten von ChatGPT mit denen, welche die Ärzte zuvor auf Reddit gegeben hatten und zog in 79 Prozent der Fälle die Antwort von ChatGPT unter qualitativen und empathischen Gesichtspunkten der ärztlichen Antwort vor.

Eine Aussage zur Patientenzufriedenheit, wie Siegel und Janoschka fälschlicherweise behaupten, lässt sich aus der Studie also nicht ableiten, weil im Rahmen der Studie gar keine Patienten befragt wurden. Abgesehen davon ist die Stichprobe nicht unbedingt aussagekräftig: Vermutlich hat schon die Schwere der eigenen Symptome Einfluss darauf, ob man mit einem medizinischen Problem bei Reddit, in seiner Haus- oder Facharztpraxis oder in der Notaufnahme vorstellig wird. Darüber hinaus sagt auch die Qualität von Antworten, die Ärzte ehrenamtlich in ihrer Freizeit auf Reddit geben, nichts über die Qualität von ärztlichen Antworten im Praxis- oder klinischen Alltag aus.

Exkurs: Künstliche Intelligenz in der Pflege

Auch der im Beitrag folgende Hinweis auf den KI-Einsatz in der von Personalmangel erheblich betroffenen Pflege greift an dieser Stelle zu kurz: Hier muss differenziert werden zwischen positiv zu bewertenden Entwicklungen wie Haushalts- oder ähnlichen Robotern, die Menschen helfen, möglichst lange ihre Autonomie zu bewahren und „Emotionsrobotern“, die zur vermeintlichen Vorbeugung von Einsamkeit soziale Interaktion vortäuschen. Letztere werden mit Recht sowohl im Bereich der Ethik als auch der Pflegewissenschaften höchst kritisch betrachtet.³ Im Kontext des Beitrags stellt sich die Frage, ob wir Chatbots wirklich die Rolle solcher „Emotionsroboter“ zukommen lassen wollen.

Ein aus dem Kontext gerissenes Zitat

Ludwig Lorenz wird, formal korrekt, mit der folgenden Aussage zitiert:

„Ich habe gemerkt: Manchmal habe ich meine Begeisterungsschübe. Die kann ich dann aber an niemandem so richtig auslassen im Freundeskreis, weil das oft Dinge sind, die sich total spezifisch mit Themen beschäftigen, von denen meine Freunde und meine Familie vielleicht gar nicht viel Ahnung haben. Aber dann schreibe ich ChatGPT und sage: Hey, ich finde das und das voll super. Und dann antwortet mir ChatGPT: Boah, richtig gut, dass du das super findest. Ich nenne dir ein paar Gründe, warum das richtig super ist.”
Hangout „KI in der Hochschulbildung – Hype oder Innovation?“ (ab 18:55 min.)

Ohne den Kontext des Hangouts klingt das Zitat allerdings so, als hole sich Lorenz von ChatGPT Bestätigung in Angelegenheiten, von denen sein soziales Umfeld nicht viel versteht. Schaut man sich das Video bis dahin in Gänze an wird deutlich: Lorenz spricht hier von ChatGPT im Kontext von Inspirationsquellen. Kurz zuvor geht er detailliert auf die Fehler ein, die ChatGPT macht und beschreibt, wie er selbst gegenüber ChatGPT die Rolle eines Prüfers einnimmt und die Fehler des Chatbots korrigiert; unmittelbar im Anschluss an den zitierten Abschnitt bekräftigt er, dass es sich bei ChatGPT nur um ein statistisches Modell und kein Gegenüber handele und die „Konversation“ somit eine Illusion sei. Dass allerdings auch aus Illusionen gute und sinnvolle Inspirationen erwachsen können, ist keine neue Erkenntnis und auch kein Beleg für die Hauptthese des Beitrags: So gelten beispielsweise auch Träume schon spätestens seit der Antike als Quelle der Inspiration.

Chancengerechtigkeit durch Chatbots?

Abgesehen von der Inspiration braucht es aber auch weiterhin menschliche Lernbegleiter, die wirkliche Konversationen führen können und idealerweise nicht nur über Wissen in ihrem jeweiligen Fachgebiet, sondern über wirkliche Bildung verfügen. Das können Chatbots, die lediglich Wissensquellen reproduzieren, nicht leisten. Im Gegenteil wirkt die falsche Vorstellung, Chatbots seien auf dem Gebiet der Lernbegleitung kompetent, kontraproduktiv: Nämlich überall dort, wo die Verfügbarkeit von Chatbots als Vorwand für die Kürzung im Bereich teuren menschlichen Personals genutzt wird. Eine ganz ähnliche – mittlerweile glücklicherweise argumentativ entkräftete – Debatte hatten wir bereits Mitte der 2010er-Jahre, als Digitalisierung von einigen politischen und gesellschaftlichen Akteuren fälschlicherweise als ein Sparmodell für die Hochschullehre betrachtet wurde.

Siegel und Janoschka äußern die Hoffnung, dass die allgemeine Verfügbarkeit von Chatbots in der Rolle individueller Lernbegleiter einen Beitrag zur Chancengerechtigkeit an Hochschulen leisten können. Diese Hoffnung wird sich aus unserer Sicht schon allein deshalb nicht erfüllen, weil eine sinnvolle Nutzung von Chatbots, sei es zur Inspiration oder Recherche, einer nicht unerheblichen Vorbildung bedarf. Das führt auch Ludwig Lorenz im Rahmen des Hangouts eindrücklich aus, wenn er von den Fehlern im Output von ChatGPT spricht: Wer von solchen Fehlern lernen möchte, muss sie erst als solche erkennen. Für den Aufbau dieser Vorbildung braucht es auch weiterhin verlässliche menschliche Lernbegleiter, insbesondere auch im ersten und zweiten Bildungssektor; erst dann kann sinnvollerweise über den Einsatz von Chatbots gesprochen werden. Das verursacht natürlich Aufwand und Kosten – doch wer das ignoriert und Chatbots bei Heranwachsenden ohne entsprechende Vorbildung einzusetzen versucht, verschärft eher Bildungsungerechtigkeiten, als dass er sie abbaut.

ELIZA oder der Computer als Gegenüber?

Eine Debatte über Chatbots als soziale Interaktionspartner lässt sich nicht führen ohne einen Verweis auf ELIZA, den vom IT- und KI-Pionier Joseph Weizenbaum im Jahr 1966 entwickelten und vorgestellten frühen Chatbot, einem der ersten sprachanalytischen Programme zur Interaktion zwischen Mensch und Computer. Die von ihm beobachteten Reaktionen auf dieses Programm machten Weizenbaum zu einem frühen Skeptiker der IT-Technologie, was sich in seinem 1976 veröffentlichten Hauptwerk Computer Power and Human Reason. From Judgment to Calculation niederschlug.

Das Programm basiert auf einfacher Sprachanalyse und simuliert, für damalige Verhältnisse sehr effektvoll, eine Gesprächssituation mit einem Psychotherapeuten. Weizenbaum gibt ein Beispiel für ein solches „Gespräch“ zwischen einem menschlichen Benutzer und ELIZA (kursiv):

„Men are all alike.
In what way
They’re always bugging us about something or other.
Can you think of a specific example
Well, my boyfriend made me come here.
Your boyfriend made you come here
He says I’m depressed much of the time.
I am sorry to hear you are depressed
It’s true. I am unhappy.
Do you think coming here will help you not to be unhappy
I need some help, that much seems certain.
What would it mean to you if you got some help
Perhaps I could learn to get along with my mother.
Tell me more about your family
[…]“⁴

Das Beispiel macht deutlich, dass das Programm auf einem recht einfachen Algorithmus basiert. Es versucht, einzelne Begriffe aus der Textzeile des Benutzers zu isolieren und in eine Gegenfrage umzuwandeln. Wo das nicht gelingt, stellt das Programm eine allgemeine Frage, um das Gespräch aufrechtzuerhalten. Weizenbaums Motivation für da Programm war es, einem breiten Publikum die generelle Funktionsweise eines Computers vor Augen zu führen.⁵

Was Weizenbaum nach Veröffentlichung von ELIZA jedoch schockierte, sind die Reaktionen auf sein Programm. Der Psychiater Kenneth Colby etwa schlug vor, das Programm für therapeutische Zwecke zu nutzen:

„The human therapist, involved in the design and operations of this system, would not be replaced, but would become a much more efficient man since his efforts would no longer be limited to the one-to-one patient therapist ratio. […] A human therapist can be viewed as an information processor and decision maker with a set of decision rules […]“⁶

Dass ein Psychiater sich selbst nicht mehr als therapievermittelnden Menschen, sondern als mechanischen „information processor“ sehe und so auf die Idee kommen könne, seine Arbeit an ein Computerprogramm delegieren zu können, stellte eine für Weizenbaum schlicht unverständliche mechanistische Reduktion des Menschen dar.⁷

Als besonders erschreckend empfand er die Tatsache, wie schnell menschliche Anwender im Gespräch mit ELIZA bereit waren, den Computer als tatsächlichen Gesprächspartner wahrzunehmen. Von seiner Sekretärin, die die Entwicklung des Programms über Monate verfolgt hatte und deshalb über seine Funktionsweise bestens informiert war, wurde Weizenbaum gebeten, während eines „Gesprächs“ mit ELIZA den Raum zu verlassen – so, als handele es sich um einen tatsächlichen Gesprächspartner, mit dem man intime Details bespricht. Weizenbaum war besorgt, dass die Menschen nach nur geringer Benutzungsdauer von der Illusion des Computers offenbar bereitwillig täuschen lassen.⁸

Illusion des Gegenübers vs. menschliches Gegenüber

Zwischen ELIZA und ChatGPT liegen 57 Jahre und bedingt durch den technischen Fortschritt wirkt die von Weizenbaum bereits 1976 beschriebene Täuschung heute natürlich wesentlich überzeugender als damals. Dennoch gibt es keinerlei Grund anzunehmen, dass Computer und Software zwischenzeitlich ein Bewusstsein entwickelt haben könnten und damit zu einem echten Gegenüber geworden wären. Computer funktionieren nach wie vor nach dem Prinzip Input-Verarbeitung-Output. Dass Teilschritt „Verarbeitung“ mittlerweile deutlich komplexer und aufwendiger funktioniert als 1966, ändert daran nichts.

Die hier geführte Debatte zeigt aber, dass Weizenbaums Kritik aktueller denn je ist: Die Gefahr der menschlichen Täuschung durch die Illusion eines sozialen Gegenübers, etwa in Form von Chatbots, ist real. Dabei kann, wer sich jemals an einer längeren, ernstgemeinten Konversation mit einem KI-Chatbot versucht hat, das unbefriedigende Gefühl nachvollziehen, das sich nach kurzer Zeit mit dem simulierten „Gegenüber“ einstellt. Unsere Überzeugung ist es, dass dies in der wesenhaften Differenz zwischen der Simulation und einem echten menschlichen Gegenüber begründet liegt: Eine Simulation bleibt eine Simulation, so täuschend „echt“ sie auch scheinen mag. Wer den Chatbot als soziales Gegenüber zu begreifen versucht, wird Opfer einer Täuschung oder täuscht sich selbst.

Hochschulen: Empathiefreie Orte des Wissenserwebs?

Zuletzt möchten wir auf die – von den Autoren selbst so bezeichnete – Polemik am Ende des Artikels eingehen, Hochschulen seien im klassischen Verständnis primär ein Ort des Wissenserwerbs, an welchem Empathie wenig Bedeutung zukomme. Individuell mag dieser Eindruck mit Blick auf das Gesamtkonstrukt Hochschule zutreffen. Hier muss allerdings erneut differenziert werden zwischen Empathie als Teil sozialer Interaktion und Empathie im eigentlichen Wortsinn („Mitgefühl“). Letzteres ist in der Tat keine institutionelle Aufgabe der Hochschulen.

Hochschulen haben sich aber immer als Präsenzinstitution, als Ort des Diskurses verstanden, der auch Raum bietet für menschliche Empathie: Angefangen von der Disputatio in der mittelalterlichen Unversität bis hin zum heutigen Verständnis von Persönlichkeitsbildung als essenziellem Teil der Hochschulbildung.

Wo Hochschulen diesem Verständnis nicht gerecht werden, ist das vielfach sachlichen Zwängen wie Ressourcen- und Personalmangel geschuldet. Chatbots als Lösungsansatz für dieses Problem führen hier allerdings in eine völlig falsche Richtung: Wie beschrieben brauchen wir für die sinnvolle Nutzung von Chatbots mehr, nicht weniger menschliche Lernbegleiter, welche nicht nur über die Chancen, sondern auch über die inhärenten Risiken von KI Bescheid wissen. Nur so kann KI als kreatives Werkzeug, als Inspirationsquelle oder wissenschaftliche Hilfe gewinnbringend eingesetzt werden.

Was jetzt zu tun ist

KI in der Rolle eines sozialen Interaktionspartners zu sehen, wäre ein völlig falscher Einsatz von KI, dem Hochschulen entgegenwirken sollen und müssen. Hier handelt es sich um eine derjenigen genuin menschlichen Domänen, die unbedingt in menschlicher Hand bleiben müssen. Maschinen sind und bleiben Maschinen, und kein soziales Gegenüber, was übrigens von seriösen KI-Forschern abseits der oftmals Marketing- und Investoren-getriebenen Silicon-Valley-Bubble immer wieder bestätigt wird⁹.

Darum brauchen wir gerade jetzt dringend eine Debatte über eine KI-Kompetenzen an Hochschulen: Welche Kompetenzen müssen Hochschulangehörige, unabhängig von ihrer Disziplin, unbedingt besitzen, um auf eine mündige Teilhabe in einer immer stärker von KI geprägten Welt vorbereitet zu sein und vorbereiten zu können? Wie kann die Debatte über KI auf ein neues Level, abseits der praktischen Anwendung konkreter Tools wie ChatGPT, gehoben werden? Welche Aufgaben sind genuin menschlich und dürfen nicht fahrlässig an KI delegiert werden? Und wo und auf welche Weise kann uns KI künftig unterstützen, etwa als Inspirationsquelle, kreatives Werkzeug und Recherchetool?

Deshalb bereiten wir gerade eine neue Arbeitsgruppe innerhalb des Hochschulforums Digitalisierung vor, die im Herbst 2023 ihre Arbeit aufnehmen soll. Sie soll u.a. die oben skizzierten Fragen diskutieren, auf dieser Grundlage ein Kompetenzraster für KI an Hochschulen – unabhängig vom Fachgebiet – entwickeln und nach effektiven Transfermöglichkeiten auf alle Ebenen der Hochschulen suchen. Oder, um auf die Siegels und Janoschkas Frage am Ende des Beitrags zu antworten: Challenge accepted!

1
Dass das Pronomen an dieser Stelle, anders als in Titeln üblich, klein- statt großgeschrieben wird, kann als erster Hinweis des Regisseurs auf die ontologische Qualität der Beziehung zu ihr, der Künstlichen Intelligenz im Film, betrachtet werden.
2
Dieser Terminus schließt Ärzte ebenso mit ein wie Pflegepersonal, Chiropraktiker oder Physiotherapeuten, vgl. Licensed healthcare professional Definition, https://www.lawinsider.com/dictionary/licensed-healthcare-professional, abgerufen am 14. Juli 2023.
3
vgl. etwa Manemann, Jürgen, Paro ist ein Ausdruck für den Verlust von Kommunikation, https://www.wissenschaftsjahr.de/2013/die-themen/themen-dossiers/besser-leben-mit-technik/contra-position.html, abgerufen am 14. Juli 2023.
4
Vgl. Weizenbaum, Joseph, Computer Power and Human Reason. From Judgment to Calculation, San Francisco 1976, 3f.
5
Vgl. ebd., 4f.
6
Colby, zitiert nach: Weizenbaum, Computer Power, 5f.
7
Vgl. ebd., 5f. sowie Ders., Wo sind sie, die Inseln der Vernunft im Cyberstrom? Auswege aus der programmierten Gesellschaft (mit Gunna Wendt), Freiburg i. Br. 2006, 97: „Heute findet man im Netz viele Varianten von ‚Eliza‘, die alle ungefähr dasselbe tun. Nur die Zwecke sind verschieden. Es gibt sogar eine Variante, in der das Programm nicht mehr die Rolle des Psychiaters, sondern die des Priesters spielt und sozusagen die Beichte per Computer entgegennimmt. Obwohl ich kein Katholik bin, entsetzt mich diese Vorstellung. Wenn man tatsächlich glaubt, eine Maschine könne einem die Sünden vergeben und die Absolution erteilen, dann frage ich mich wirklich, welche Bedeutung der Glaube oder die Priesterweihe noch haben.“
8
Vgl. Ders., Computer Power, 6f.
9
vgl. z.B. Otte, Ralf, Die Künstliche Intelligenz wird gerade gewaltig überschätzt, https://www.faz.net/aktuell/wirtschaft/kuenstliche-intelligenz/warum-die-ki-von-heute-gewaltig-ueberschaetzt-wird-18972748.html, abgerufen am 14. Juli 2023.