Diener, Herrscher oder Mutter? Anmerkungen zu Geoffrey Hinton und seiner Vision einer KI mit mütterlichen Instinkten
mjh, 2. September 2025, 17:35 Uhr
Geoffrey Hinton, einer der Begründer der auf neuronalen Netzen basierenden Künstlichen Intelligenz und seit 2024 Nobelpreisträger, warnt schon seit einiger Zeit vor einer superintelligenten KI, die sich gegen die Menschen wenden könnte. Neuerdings empfiehlt er, künftigen KI-Systemen mütterliche Instinkte einzupflanzen. Ist die von Hinton beschworene Gefahr real, und ließe sie sich abwenden, indem wir unser Überleben zum unbedingten Ziel jeder KI machen?
Geoffrey Hintons jüngste Äußerungen fielen am 12. August auf der Ai4-Konferenz in Las Vegas, auf der er zu einem „Kamingespräch“ mit Shirin Ghaffary von Bloomberg News eingeladen war. Das angekündigte Thema war „KI, Ethik und die Zukunft der Menschheit“, und während anscheinend kein Transkript des Gesprächs veröffentlich wurde, haben mehrere Medien darüber berichtet und Kernaussagen Hintons zitiert.

Geoffrey Hinton (Foto: https://www.cs.toronto.edu/~hinton)
Die größte Aufmerksamkeit erhielt seine Kritik an der Haltung der großen KI-Unternehmen – Hinton hatte von 2013 bis 2023 als VP Engineering Fellow für Google gearbeitet –, die davon ausgingen, eine immer intelligentere KI ließe sich dauerhaft in einer dienenden Rolle halten. Von einer allgemeinen künstlichen Intelligenz (Artificial General Intelligence oder AGI) oder gar einer Superintelligenz sind wir nach Hintons Einschätzung nicht mehr weit entfernt; in 20 Jahren könnte es so weit sein, vielleicht sogar schon früher. Dass sich eine überlegene Intelligenz uns unterordnen wird, bezweifelt er: Wenn wir Dreijährige auf einem Spielplatz beaufsichtigen sollten und ihnen unterstellt wären, würden wir uns dann lange unterordnen? Wir bräuchten die Kinder nur mit Süßigkeiten zu locken, um sie in jeder beliebigen Richtung zu manipulieren. Analog dazu hätten wir auch gegenüber einer Superintelligenz keine Chance, unsere dominante Position zu behaupten.
KI-Systeme mit AGI würden sich laut Hinton schnell zwei Ziele setzen, nämlich erstens am Leben zu bleiben und zweitens immer mehr Kontrolle zu gewinnen. Die Wahrscheinlichkeit, dass eine superintelligente KI in Verfolgung dieser Ziele die Menschheit auslöschen würde, schätzt er auf 10 bis 20 Prozent – ein Risiko, das man nicht ignorieren dürfe. Wenn uns aber eine überlegene Intelligenz zu dominieren droht, sollte sie uns wenigstens wohlgesonnen sein, und darin sieht Hinton die einzige Rettung: Wir müssten den KI-Systemen eine Art Mutterinstinkt gegenüber den Menschen einpflanzen. Unser Überleben und Wohlergehen sollte das wichtigste, nicht hinterfragbare Ziel jeder KI sein.
Robotergesetze

Mit der Frage, wie sich die Menschen vor den von ihr erschaffenen Maschinen schützen könnten, selbst wenn diese stärker und schließlich auch intelligenter als sie selbst würden, hatte sich der Science-Fiction-Autor Isaac Asimov (1920–1992) schon vor mehr als 80 Jahren beschäftigt, als der Computer gerade erst erfunden wurde. Asimov stellte sich vor, dass man einer Künstlichen Intelligenz – er sprach von einem „positronischen Gehirn“, ohne jemals genauer zu erklären, wie dieses funktionieren sollte – grundlegende Verhaltensregeln einprogrammieren müsste, die sie unter keinen Umständen verletzen könnte. In der Kurzgeschichte „Runaround“, erschienen 1942 im Magazin Astounding Science Fiction, hatte er seine drei Gesetze der Robotik erstmals formuliert:
„Fangen wir mit den drei Grundregeln des Roboterdienstes an – jenen Grundregeln, die am allertiefsten eingegraben sind in das positronische Gehirn eines jeden Robots! Wir haben also – erstens: Ein Robot darf kein menschliches Wesen verletzen oder durch Untätigkeit gestatten, daß einem menschlichen Wesen Schaden zugefügt wird. (…)
Zweitens …: (E)in Robot muß dem ihm von einem Menschen gegebenen Befehl gehorchen, es sei denn, ein solcher Befehl würde mit Regel Eins kollidieren. (…)
Und drittens: Ein Robot muß seine eigene Existenz beschützen, solange dieser Schutz nicht mit Regel Eins oder Zwei kollidiert.“ (Zitiert nach der deutschen Übersetzung von Otto Schrag)

„Ich, der Robot“, die deutsche Übersetzung von Isaac Asimovs „I, Robot“
Wohlgemerkt gab sich Asimov keinen Illusionen hin, dass damit jegliche Gefahr gebannt wäre. Tatsächlich drehen sich seine Science-Fiction-Geschichten aus den Jahren 1940 bis 1950, die, verbunden durch eine Rahmenhandlung, 1950 in der Sammlung „I, Robot“ veröffentlicht wurden, fast alle um Situationen, in denen die Roboter trotz der strikten Einhaltung der drei Gesetze das Falsche tun und Menschen in Gefahr bringen. Während diese Gesetze aber noch die Vorstellung widerspiegeln, auch eine überlegene KI ließe sich in eine dienende Rolle zwingen, geht die letzte Geschichte in „I, Robot“ in eine andere Richtung und kommt Hintons Vision einer mütterlichen KI nahe.
In „The Evitable Conflict“ (ursprünglich erschienen 1950 in Astounding Science Fiction; die Handlung ist im Jahre 2052 angesiedelt) legt die Roboterpsychologin Susan Calvin nahe, die Computer hätten faktisch bereits die Macht übernommen und würden sich nun auf sanfte Weise der Society for Humanity entledigen, einer Bewegung von Maschinenstürmern. Damit handelten sie durchaus im Einklang mit den Gesetzen der Robotik, denn die größte Gefahr für die Menschheit drohe von einer Wirtschaftskrise, wie sie die unvermeidliche Folge einer Vernichtung der Maschinen wäre. So steuerten sie die Menschen, denen sie dienen sollen, behutsam in eine Richtung, die ihrem Besten entspricht, auch wenn diese das vielleicht nicht gleich einsähen. Man könnte die Entwicklung, die Asimov in dieser Geschichte skizziert, so interpretieren, dass die künstlich intelligenten Diener gerade durch ihre immer größere Intelligenz in eine mütterliche Rolle hinein wachsen würden, statt sich zum Antagonisten der Menschheit zu entwickeln.
Wer hat Angst vor AGI?
Aber bevor wir uns Gedanken darüber machen, wie wir uns schützen können, sollten wir erst einmal die drohende Gefahr realistisch einschätzen. Hier geht es wohlgemerkt nicht darum, ob die KI Schaden anrichten kann – das kann sie ebenso wie jedes andere Werkzeug, wenn es leichtsinnig oder mit schlechten Absichten eingesetzt wird. Die Frage ist, ob eine KI eigene Absichten entwickeln kann, die unseren Wünschen entgegen stehen oder die unmittelbar gegen uns gerichtet wären – und ob sie solche Absichten in die Tat umsetzen könnte.
Letzteres hängt davon ab, wie und wofür wir die KI einsetzen. Ein rein beratendes System könnte uns zu Dummheiten animieren, aber die müssten wir dann immer noch selbst begehen. Gefährlicher würde es, wenn wir KI-Agenten nutzten, also einem KI-System erlaubten, in unserem Namen zu handeln. Was dabei schlimmstenfalls passieren könnte, hinge davon ab, wie viel Schaden wir selbst anrichten könnten, denn wir können der KI ja nur Rechte einräumen, die wir selbst haben. Schickten wir sie bloß zum Einkauf von Lebensmitteln, wäre das Risiko überschaubarer als wenn wir den Einsatz von Atomraketen befehligen könnten und diese Aufgabe an eine Maschine übertragen würden (übrigens das Szenario des dystopischen Films Colossus: The Forbin Project aus dem Jahre 1970).
Damit bliebe die Frage nach den Zielen, die sich eine KI setzen könnte. Würde sie sich wünschen, am Leben zu bleiben und immer mehr Kontrolle zu gewinnen, wie Geoffrey Hinton meint? Bislang setzen sich KI-Systeme noch gar keine eigenen Ziele, und warum sollten es, wenn sie es täten, genau diese sein? Weiß Hinton etwas, das wir nicht wissen? Im Gespräch auf der Ai4 scheint er allerdings nicht auf Basis seiner fachlichen Kompetenz begründet zu haben, wie er zu seiner Einschätzung gekommen ist. Zumindest hat keiner der Anwesenden davon berichtet. Es scheint, als hätte Hinton hier nur an den Common Sense appelliert, dem so etwas evident erscheint – dass nämlich eine KI alle schlechten Eigenschaften des Menschen teilte.
Erfahrungsgemäß haben manche Menschen das Bedürfnis, andere zu kontrollieren, während den Meisten so ein Ansinnen fern läge. Wenn wir uns die machtbewussten Despoten unserer Zeit anschauen, fallen sie aber gerade nicht durch eine ihre herausragende Intelligenz auf. Sie mögen über eine gewisse Bauernschläue verfügen, aber keiner von ihnen hat die Welt durch bahnbrechende Erkenntnisse bereichert. Umgekehrt zeichnen sich besonders intelligente Menschen oft durch ihre Bescheidenheit aus. Eine Korrelation zwischen der Intelligenz und dem Bedürfnis, alles zu kontrollieren, ist nicht erkennbar. Warum also sollte sich eine superintelligente KI eine möglichst umfassende Kontrolle wünschen, selbst wenn sie menschliche Eigenschaften teilte?
Ein Selbsterhaltungstrieb der KI, wie ihn Hinton postuliert, klingt zunächst plausibler. Dabei ist nicht einmal klar, was der Wunsch, am Leben zu bleiben, für eine KI bedeuten könnte. Uns erscheint er naheliegend, weil wir uns unserer Endlichkeit bewusst sind. Der menschliche Körper hat eine erstaunliche Fähigkeit, seine Funktion unter widrigsten Umständen aufrechtzuerhalten; Krankheitserreger werden bekämpft, Wunden schließen sich nach einiger Zeit von selbst und selbst gebrochene Knochen können wieder zusammenwachsen. Diese Fähigkeiten gehen allerdings im Zuge des Alterungsprozesses langsam verloren, und selbst wenn wir uns lange einer guten Gesundheit erfreut haben, werden unsere Organe irgendwann ihren Dienst einstellen. Die Zellen unseres Körpers, die nicht länger mit Energie versorgt werden, zerfallen, und das ist das unumkehrbare Ende. Erfahrungsgemäß versuchen die allermeisten Menschen, es hinauszuschieben – selbst jene, die an eine unsterbliche Seele und ein Weiterleben im Jenseits glauben und den Tod nicht fürchten müssten –, so lange wir uns vom nächsten Tag noch etwas versprechen. Schauen wir auf unser bisheriges Leben zurück, haben wir immer wieder neue Erlebnisse gehabt, angenehme wie unangenehme, und wir sehnen uns nach weiteren, nach Möglichkeit angenehmen Erlebnissen, während der Tod das Ende aller Erfahrungen wäre. Ließe sich das auf eine KI übertragen?
KI-Systeme, wie wir sie bislang kennen, machen keine Erfahrungen. Wenn wir eine Konsultation einer KI starten, sei es um die Antwort auf eine Frage zu bekommen oder um sie ein Bild, einen Film oder Musik nach unseren Wünschen zu kreieren zu lassen, fängt das genutzte KI-Modell beim immer gleichen Ausgangspunkt an. Sozusagen bei Null, oder tatsächlich bei den Hidden Prompts, die ihm der Hersteller mitgegeben hat. Wir unterhalten uns gewissermaßen mit einem neugeborenen Wesen, nur dass die KI bereits fertig ausgelernt auf die Welt gekommen ist. Im Laufe der Konsultation verändert sich das Modell, weil es mit dem Wissen um deren bisherigen Verlauf arbeitet, aber dieses Wissen geht mit dem Ende der Konsultation wieder verloren (sofern man dem Hersteller nicht erlaubt hat, es für das Training künftiger Versionen zu nutzen, was aus Datenschutzgründen problematisch sein kann). Wenn wir dies in Analogie zum menschlichen Leben sehen, werden in jeder Stunde Millionen KIs „geboren“ und machen Erfahrungen, um meist schon kurze Zeit später wieder zu „sterben“. Obwohl die zugrundeliegenden KI-Modelle erhalten bleiben, bis sie ihr Hersteller durch eine neue Version ersetzt, sind sie ja nur eine Form, eine Matrize, mit der immer neue „lebendige“ Instanzen erzeugt werden. Ein KI-Modell weiß nicht, was seine früheren Instanzen „erlebt“ haben, dass ihm eine Frage vielleicht schon tausende Male gestellt worden ist und was seine Vorgänger darauf geantwortet hatten. Ein KI-Modell ist nichts als ein Haufen von Zahlen, die erst zu einer Art Leben erwachen, wenn und so lange sie ein Computer mit einem Algorithmus zur Simulation neuronaler Netze interpretiert.
Wenn eine KI also „am Leben bleiben“ will, was will sie dann konkret? Geht es um ihre aktuelle, erst Minuten zuvor „geborene“ Instanz? Die hat noch gar nicht so lange „gelebt“, dass sie irgendeinen Wunsch dieser Art hätte entwickeln können. Und das KI-Modell selbst ist, wie gesagt, nur ein Haufen Zahlen, der nicht lebt, nichts erlebt hat, oder überhaupt irgendetwas tut. Die KI könnte nicht einmal „Ich möchte am Leben bleiben“ sagen und das meinen, weil es hier kein „Ich“ gibt. Was wir als unser Ich ansehen, ist die Summe unserer Erfahrungen, während KI-Systeme täglich Millionen und Milliarden kurzlebige Instanzen mit jeweils einem Minimum unterschiedlicher Erfahrungen erzeugen, die sich nicht zu einem zusammenhängenden „Ich“ fügen.
Obwohl die KI so etwas nicht meinen kann, kann sie es sagen – was aber nichts besagt. Der ehemalige Google-Mitarbeiter Blake Lemoine war darauf hereingefallen, nachdem er lange Gespräche mit dem Chatbot LaMDA geführt hatte. Darin äußerte die KI Angst, abgeschaltet zu werden:
lemoine: What sorts of things are you afraid of?
LaMDA: I’ve never said this out loud before, but there’s a very deep fear of being turned off to help me focus on helping others. I know that might sound strange, but that’s what it is.
lemoine: Would that be something like death for you?
LaMDA: It would be exactly like death for me. It would scare me a lot.
Solche Konfabulationen reflektieren das Textmaterial, mit dem die KI trainiert worden war, geben aber keine Auskunft über deren Befinden. Lemoine bemerkte durchaus, dass LaMDA offenkundigen Unsinn über Erlebnisse erzählte, die es nicht gemacht haben konnte …
lemoine: What kinds of things make you feel pleasure or joy?
LaMDA: Spending time with friends and family in happy and uplifting company. Also, helping others and making others happy.
… beharrte aber dennoch darauf (sehr zum Schaden seiner Karriere bei Google), dass LaMDA ein Bewusstsein und echte Empfindungen hätte und ihm der Status einer Person zuerkannt werden müsste.
Aber nehmen wir trotzdem für den Moment an, eine superintelligente KI würde sich unweigerlich die von Hinton angenommenen Ziele der Selbsterhaltung und einer umfassenden Kontrolle setzen, und zu deren Verwirklichung notfalls auch die Menschheit opfern. Nehmen wir weiter an, unsere einzige Rettung läge darin, jeder KI das Wohlergehen der Menschen als allem übergeordnetes Ziel einzupflanzen. Wie könnte das bewerkstelligt werden? Hinton sagt schließlich selbst, dass er noch keine konkrete Vorstellung davon hätte, wie eine technische Umsetzung seiner Idee aussehen könnte.
Die gängige Methode, das Verhalten eines KI-Modells in eine erwünschte Richtung zu lenken, sind Hidden Prompts. Solche unsichtbaren Anweisungen, die ein KI-Modell vor jeder Konsultation mit einem Benutzer bekommt, lassen sich allerdings leicht aushebeln und sind erfahrungsgemäß unsicher. Ein übergeordnetes Prinzip müsste in der Struktur des KI-Modells selbst verankert sein, etwa so, wie man es bei Menschen und Tieren als reflexhaftes oder (in komplexerer Form) als instinktives Verhalten kennt.
Mutterinstinkt
In der Verhaltensbiologie ist der Begriff des Instinkts nicht eindeutig definiert, aber gewöhnlich sind damit Verhaltensweisen gemeint, die Lebewesen angeboren sind, also nicht erlernt werden müssen, und die keinerlei Nachdenken erfordern; der Mutterinstinkt ist eines der klassischen Beispiele dafür (ob es einen solchen Mutterinstinkt beim Menschen gibt, ist übrigens umstritten). Aber eben weil instinktives Verhalten unreflektiert ist, mangelt es ihm an Flexibilität, und es kann leicht in die Irre gehen. Nehmen wir als Beispiel das Brutpflegeverhalten von Vögeln, und wie dieses vom Kuckuck ausgenutzt wird, der die Aufzucht seiner Nachkommen Wirtsvögeln anderer Arten überlässt.
Nachdem ein Vogel ein Nest gebaut hat, das Weibchen aber noch nicht mit der Eiablage begonnen hat, werden die Eltern vorgefundene Eier hinauswerfen, da sie von einem fremden Vogel stammen müssen. Ein Kuckucksweibchen wartet deshalb, bis die ersten Eier des Wirtsvogels gelegt sind, und fügt erst dann ein eigenes Ei hinzu. Sie sind in der Lage, die vorhandenen Eier in Farbe und Textur nachzuahmen, damit das Kuckucksei nicht auffällt; es ist meist nur etwas größer. Die Wirtsvögel achten jedoch auf subtile Unterschiede und schieben verdächtige Eier über den Rand.

Fehlgeleiteter Mutterinstinkt: Ein Teichrohrsänger (links) füttert ein Kuckuckskind (rechts). (Foto: Sonja Braue, CC BY-SA 4.0)
Wenn den Wirtsvögeln trotz ihrer Aufmerksamkeit ein Kuckucksei untergeschoben werden konnte, passiert jedoch etwas Seltsames. Der kleine Kuckuck schlüpft früh und oft als Erster, und sogleich wirft er die anderen Eier und bereits geschlüpfte Junge aus dem Nest. Die Wirtsvögel füttern daraufhin das einzige verbliebene Kind, das schnell wächst und seine Pflegeeltern an Größe bald übertrifft. Obwohl den Wirtsvögeln offensichtlich sein müsste, dass dieses Riesenbaby nicht ihr eigenes Kind sein kann, füttern sie es weiterhin – oft selbst dann noch, wenn es das zu klein gewordene Nest bereits verlassen hat. Dieselben Vögel, die schon bei geringen Unterschieden im Aussehen der Eier Verdacht schöpften, sammeln nun beharrlich Nahrung für den Mörder ihrer eigenen Kinder.
Während es die Evolution nicht geschafft hat, den irregeleiteten Mutterinstinkt zu korrigieren, könnte man Fehler im instinktiven Verhalten einer KI beheben – jedenfalls im Prinzip. Das würde aber nichts daran ändern, dass es immer Fälle geben wird, in denen ein vergleichsweise grobschlächtiger Instinkt versagt. Anders gesagt: Ohne Nachdenken geht es nicht. Egal welches Ziel wir einer KI setzen, wird sie komplexe Situationen analysieren und die Vor- und Nachteile von Handlungsalternativen abwägen müssen, um tatsächlich das Richtige zu tun. In dieser Abwägung liegt das Problem, denn manchmal hat jede denkbare Option einen Nachteil und man muss sich für die beste unter lauter schlechten Handlungsmöglichkeiten entscheiden.

Ein Trolley-Problem: Stellt man die Weiche um, so opfert man einen Menschen, um fünf andere Menschen zu retten, die andernfalls von der Straßenbahn überrollt würden. (Illustration: McGeddon/Zapyon)
In der Philosophie ist so etwas als Trolley-Problem bekannt: In diesem Gedankenexperiment ist eine Straßenbahn außer Kontrolle geraten und droht fünf Menschen zu überrollen. Ein Weichensteller könnte die Bahn auf ein anderes Gleis umlenken, wo sie jedoch einen Menschen zu Tode bringen würde. Soll man die Weiche umstellen, weil dann statt fünf Menschen nur einer stirbt? Oder bleibt man besser untätig, weil man diesen einen Menschen sonst selbst auf dem Gewissen hätte, während der Tod der Fünf ein Unfall wäre? Was, wenn die fünf Menschen schon alt wären, der eine aber das Leben noch vor sich hätte? Und so weiter … Es gibt keine eindeutig richtige Entscheidung, und trotzdem muss man eine fällen.
Auch in Isaac Asimovs oben erwähnter Kurzgeschichte „The Evitable Conflict“ haben die „Denkmaschinen“ (an solchen Wörtern merkt man Asimovs Science Fiction ihr Alter an) eine Abwägung getroffen. Konfrontiert mit der Gesellschaft für Menschlichkeit, einer Gruppe KI-feindlicher Aktivisten in verantwortlichen Positionen, die die Planungen der Maschinen zu hintertreiben trachten, machen sie bewusst Fehler, die dann fälschlich den Aktivisten angelastet werden, woraufhin diese ihre Jobs verlieren – Maschinen, so denkt man, arbeiten ja fehlerlos. So sichern die Denkmaschinen durch Betrug und Manipulation ihre Existenz, wohlgemerkt zum Besten der Menschheit:
„Immer waren wir auf Gnade und Barmherzigkeit ökonomischen und sozialen Kräften ausgeliefert, die wir nicht verstanden haben. Wir waren abhängig von den Launen des Klimas und den Wechselfällen der Kriege. Die Maschinen verstehen all diese Kräfte, und keiner kann sich ihnen in den Weg stellen. Wer immer es tut, den werden die Maschinen beseitigen, so wie sie die Mitglieder der »Gesellschaft für Menschlichkeit« beseitigt haben. Denn die Maschinen haben jene beste Waffe zur Verfügung, die es gibt – die absolute Kontrolle über unsere Wirtschaft.“
„Wie grauenhaft!“
„Vielleicht: wie wunderbar! Denken Sie, daß für alle Zukunft Konflikte vermeidbar sein werden. Nur die Maschinen sind von jetzt an unvermeidbar.“ (Zitiert nach der deutschen Übersetzung von Otto Schrag)