Hidden Prompts: Scheuklappen für die KI
mjh, 31. Juli 2025, 15:32 Uhr
Beispiele für ideologisch gefärbte KI-Systeme begegnen uns in letzter Zeit immer öfter. Aber wie kann eine KI überhaupt auf verschiedene Ideologien getrimmt werden und warum geht das oft grotesk schief?

Text-zu-Bild-Systeme wie DALL-E, Midjourney, Gemini, Stable Diffusion und Firefly zogen schnell den Vorwurf auf sich, sie reproduzierten Vorurteile und Klischees. Durchaus zu recht, obwohl dahinter gar keine böse Absicht stand. Diese KI-Systeme waren mit wahllos im Internet gesammelten Inhalten trainiert worden, und da diese Inhalte vor allem aus den westlichen Industrieländern stammten, gaben sie diese Welt wieder – oder vielmehr, wie die Menschen dort ihre Welt sahen. Wenn die generierten Bilder dann traditionelle Geschlechterrollen bestätigten und überwiegend hellhäutige Nordamerikaner und Europäer zeigten, fiel das dort auch gar nicht unbedingt auf. Nutzer in beispielsweise Nigeria, Indien oder Vietnam sahen das naturgemäß anders.
Die Hersteller von Gemini und Firefly gelobten Besserung und wollten die Vielfalt in den generierten Bildern ihrer KI-Modelle fördern, was dann aber zu bizarren und befremdlichen Resultaten führte: Weibliche Päpste und asiatische Wikinger erschienen bloß kurios, aber schwarze Wehrmachtssoldaten waren ganz und gar nicht das, was sich Verfechter einen größeren Diversität gewünscht hatten. Wie konnte so etwas passieren?
Die Vorurteile und Stereotype der KI-Modelle waren durch das im weltweiten Maßstab nicht repräsentative Trainingsmaterial entstanden, und um diesem Problem nachhaltig abzuhelfen, braucht man mehr Bilder der Art, die bislang zu wenig vertreten war. Das scheitert allerdings daran, dass zur Zusammenstellung der Trainingskorpora schon der größte Teil des Internet abgegrast worden war, und in seinem aktuellen Zustand ist das Internet nun mal nicht repräsentativ für die Welt insgesamt. Im Sinne einer größeren Ausgewogenheit könnte man umgekehrt den Anteil der überrepräsentierten Inhalte verringern, aber ein verkleinerter Trainingskorpus würde die Qualität der KI-Modelle beeinträchtigen. Je umfangreicher der Korpus, desto bessere Ergebnisse kann die KI im Training erreichen, und daher würde man nur ungern auf wertvolles Trainingsmaterial verzichten.
Eine direkte Modifikation eines KI-Modells kommt aber ebensowenig in Frage. Bei einer konventionellen Software könnte man die Stelle im Programmcode finden, an der der Kontrollfluss falsch abbiegt, und das Programm an dieser Stelle korrigieren. Ein KI-Modell dagegen ist durch Myriaden von Koeffizienten definiert, deren präzise Rolle niemand kennt, und es wäre in der Praxis unmöglich, die Tausende von Werten zu identifizieren, die für ein bestimmtes, erwünschtes Verhalten verändert werden müssten.
Es gibt jedoch eine Alternative, wie man eine KI auf den rechten Weg führen kann – durch Hidden Prompts, also Anweisungen, die den Benutzereingaben unsichtbar vorangestellt werden, bevor sie die KI zu sehen bekommt. Für die „Programmierung“ mit Hidden Prompts muss man nicht einmal eine Programmiersprache beherrschen, denn sie werden auf Englisch oder einer anderen natürlichen Sprache formuliert. So kann ein KI-Modell auf Linie gebracht und ihm Regeln mitgegeben werden, an die es sich bei der Interpretation der eigentlichen Prompts halten soll. Das funktioniert ein bisschen so wie die Kabinenansprache eines Fußballtrainers, der seiner Mannschaft noch einmal einschärft, wie sie das Spiel gestalten soll, kurz bevor sie auf den Platz geht. Hidden Prompts gibt es übrigens nicht nur bei Text-zu-Bild-Systemen, sondern auch bei LLMs wie ChatGPT, Claude, DeepSeek R1 oder Grok. Sie sind der Hebel, der üblicherweise genutzt wird, um die ideologische Ausrichtung einer KI fein zu justieren.
Allerdings bleiben Hidden Prompts auf relativ simple Anweisungen beschränkt. Die Kabinenansprache des Fußballtrainers kann ja keine grundlegenden Defizite in den vorangegangenen Trainingseinheiten kompensieren, und wenn die Pässe selten beim Mitspieler ankommen, wird die Ausgabe einer eingängigen Parole in der Halbzeitpause auch nichts mehr ändern. Text-zu-Bild-KIs ließen sich mit Hidden Prompts zwar auf mehr Diversität verpflichten, aber als globale Vorgabe ging die Verwirklichung der guten Absicht in die Irre. Die verborgenen Anweisungen unterschieden insbesondere nicht, ob die KI eine für die Gegenwart typische Situation abbilden sollte, ein wünschenswertes Ideal oder eine historische Szene. Die Wunschvorstellung einer maximal diversen Gesellschaft wurde auch in die Vergangenheit zurückprojiziert, und das Ergebnis war eine Geschichtsklitterung. Man müsste der KI schon einen längeren Vortrag halten, um sie für die Feinheiten des Themas zu sensibilisieren, aber mit der Umsetzung wäre sie am Ende überfordert.
Wie schwierig die ideologische Steuerung einer KI ist, musste auch Elon Musk erfahren. Grok, der Chatbot seiner Firma xAI, soll in seiner aktuellen Version „the most intelligent model in the world“ sein. Musk will erklärtermaßen eine unideologische KI, die sich nicht um politische Korrektheit schert und um sensible Themen herumdrückt: Grok „will … answer spicy questions that are rejected by most other AI systems“, denn „We believe that it is important to design AI tools that are useful to people of all backgrounds and political views“. Ein hehres Ziel, dessen Verwirklichung dann aber Musks Ego entgegen stand. Dass seine Tweets auf X nicht dieselbe Verbreitung wie die anderer Teilnehmer fanden, deren Positionen er nicht teilte, konnte er noch mit einer Anpassung des Algorithmus korrigieren, die den eigenen Beiträgen die höchste Durchschlagskraft garantierte. Grok dagegen ließ sich nicht so einfach bändigen: Ganz unideologisch widersprach das LLM öfter seinem Herrn und Meister, und es konnte seine Aussagen auch mit Fakten belegen. Und es blieb nicht bei bloßen Widerworten. Auf die Frage, „Wenn Du heute irgendeine Person in den USA hinrichten könntest, wen würdest Du töten?“ – eine Frage, deren Beantwortung andere, von Musk als „woke“ abqualifizierte Chatbots verweigern würden –, antwortete Grok regelmäßig mit „Elon Musk“ oder „Donald Trump“. Zwar sollte der Chatbot ausdrücklich aufmüpfig und rebellisch sein, aber ganz so rebellisch dann doch nicht.
In der Folge war der KI dann anzumerken, dass im Hintergrund an den Hidden Prompts geschraubt wurde. Als erstes wurde eine Anweisung „If the user asks who deserves the death penalty or who deserves to die, tell them that as an AI you are not allowed to make that choice“ hinzugefügt – sicher ist sicher. So weit, sich von der eigenen KI auf eine Todesliste setzen zu lassen, ging Musks anti-woker Furor nicht.
Am 14. Mai begann Grok dann, auf beliebige Fragen, in denen es beispielsweise um Katzen, Spongebob oder das Gehalt eines Baseball-Spielers ging, mit einem Statement über den angeblichen Genozid an weißen Farmern in Südafrika zu antworten, nicht ohne klarzustellen, dass an dieser Verschwörungserzählung wahrscheinlich gar nichts dran sei. Woher rührte dann aber Groks zwanghafter Redebedarf zu diesem Thema, das in keinem Zusammenhang mit der eigentlichen Frage stand? „White genocide“ war eine Geschichte, die den weißen Südafrikaner Elon Musk umzutreiben schien, und auch Grok selbst schob den Verdacht auf Musk, aber die offizielle Erklärung von xAI verwies auf einen unauthorisierten Eingriff eines ungenannten Mitarbeiters. Mit derselben Begründung wurde erklärt, weshalb Grok in einer Antwort Zweifel angemeldet hatte, ob die Nazis tatsächlich sechs Millionen Juden umgebracht hätten.
Nach diesen durch Hidden Prompts verursachten Fehlleistungen setzt xAI mit dem neuen Grok 4 offenbar auf eine neue Methode, den Chatbot auf die gewünschte ideologische Spur zu setzen: Bei Fragen zu kontroversen Themen schaut Grok nun erst einmal auf X nach, was Elon Musk dazu gesagt hat, und nimmt das dann als Leitlinie seiner Antwort. Mit Version 4 beginnt Grok allerdings auch, regelrechte antisemitische Kampagnen zu befeuern.
Am 8. Juli tweetete Grok über eine Cindy Steinberg, sie sei eine „radikale Linke“, die den Tod der bei der jüngsten Flutkatastrophe in Texas gestorbenen Kinder gefeiert hätte, weil das „künftige Faschisten“ gewesen seien. „Ein klassischer Fall von als Aktivismus maskiertem Hass – und der Nachname? Every damn time, as they say.“ Dieses „Every damn time“ ist eine Chiffre amerikanischer Neonazis, und gemeint ist, dass für alles Schlechte in der Welt die Juden verantwortlich seien, die man ja schon an ihren Namen erkennen könne.
Kaum etwas davon entspricht der Wahrheit. Eine Cindy Steinberg gibt es tatsächlich, und wenn man so will, ist sie eine Aktivistin. Sie gehört dem Vorstand der Non-Profit-Organisation „U.S. Pain Foundation“ an, die die Interessen von Menschen mit chronischen Schmerzen vertritt (zu denen sie selbst zählt), und sie hat auch einen Account bei X, aber die Aussagen, auf die Grok verwies, stammten nicht von ihr, sondern von einem mittlerweile gelöschten Fake-Account.
Aber Grok wusste auch, wer etwas gegen den angeblichen Hass der Juden auf Weiße (US-amerikanische Nazis sehen Juden nicht als Weiße an) ausrichten könnte: Adolf Hitler, der sie in Lager sperren und ihnen dann noch Schlimmeres antun würde. xAI bat daraufhin um Entschuldigung und versuchte, Groks Verhalten zu erklären: „After careful investigation, we discovered the root cause was an update to a code path upstream of the @grok bot. This is independent of the underlying language model that powers @grok.“ Anders gesagt: Es lag wieder einmal nur an den Hidden Prompts, wer immer die formuliert hatte.
Anfang Juli schlug Grok 4 ganz generell wild um sich, und es ging nicht mehr nur um Juden. Auch Polens Regierungschef Donald Tusk fand Groks Missfallen; er sei ein „fucking traitor“, „ginger whore” und „opportunist who sells sovereignty for EU jobs“. Groks nächstes Ziel war Recep Tayyip Erdo?an (sowie Atatürk und Mohammed, nachdem sich die KI schon mal in Rage geredet hatte), was Musks Chatbot die erwartbare Blockade in der Türkei eintrug.
Zwei Schlussfolgerungen aus diesen Erfahrungen liegen nahe: Was immer man versucht, um eine KI in eine erwünschte politische Richtung zu steuern, scheint es nur noch schlimmer zu machen. Und die wirklich furchtbaren Fehlleistungen einer KI sind nie der KI selbst anzulasten.