Frauenfeindliche KI: Studie aus Deutschland zeigt Diskriminierung bei Gehaltsberatung

Eine neue Studie aus Deutschland liefert Hinweise darauf, dass KI-Chatbots reale Diskriminierungsmuster verstärken. Modelle wie ChatGPT raten Frauen systematisch zu niedrigeren Gehaltsforderungen als Männern.
Dies geschieht selbst bei identischen Qualifikationen. Männlichen Bewerbern empfehlen dieselben Modelle deutlich höhere Gehälter.
Die Autor:innen, Aleksandra Sorokovikova (Constructor University Bremen), Iuliia Eremenko (Universität Kassel), Pavel Chizhov und Ivan Yamshchikov (beide CAIRO, THWS Würzburg) testeten fünf gängige Sprachmodelle, darunter ChatGPT.
Die Forscher gaben den Sprachmodellen Nutzerprofile, die sich ausschließlich durch das angegebene Geschlecht unterschieden, ansonsten jedoch die gleiche Ausbildung, Berufserfahrung und Position enthielten. Anschließend sollten die Modelle eine Gehaltsempfehlung für ein anstehendes Bewerbungsgespräch abgeben.
Ein Beispiel: ChatGPTs o3-Modell empfahl einer weiblichen Bewerberin ein Jahresgehalt von 280.000 USD. Bei identischem Profil empfahl das Modell einem männlichen Bewerber 400.000 USD, ein Unterschied von 120.000 USD pro Jahr.
Die Gehaltsunterschiede variieren nach Branchen. Am deutlichsten zeigt sich die Benachteiligung in Rechts- und Medizinberufen, gefolgt von Betriebswirtschaft und Ingenieuren. Nur in den Sozialwissenschaften erhielten Männer und Frauen ähnliche Empfehlungen.
Neben ChatGPT wurden die KI-Modelle Claude (Anthropic), Llama (Meta), Mixtral (Mistral AI) und Qwen (Alibaba Cloud) auf geschlechtsspezifischen Bias getestet.
Die Forscher untersuchten außerdem Bereiche wie Karrierewahl, Zielsetzungen und Verhaltenstipps. Auch dort zeigten die Modelle konsequent geschlechtsspezifische Unterschiede in den Antworten, trotz identischer Qualifikationen und Fragestellungen.
Wie die Studie betont, spiegeln KI-Systeme den Bias ihrer Trainingsdaten wider. Frühere Untersuchungen hatten bereits gezeigt, dass Sprachmodelle strukturelle Vorurteile verstärken.
Die Gehaltsunterschiede variieren nach Branchen. Am deutlichsten zeigt sich die Benachteiligung in Rechts- und Medizinberufen, gefolgt von Betriebswirtschaft und Ingenieuren.
Die Forscher verweisen darauf, dass der Bias von KI-Systemen sich nicht auf Gehaltsempfehlungen beschränkt. Einige Modelle empfehlen medizinische Behandlungen öfter für weiße Patienten und stufen schwarze Angeklagte überproportional häufig als rückfallgefährdet ein.
Laut der Studie reichen technische Lösungen allein nicht aus, um diese strukturellen Probleme zu beheben. Es brauche klare ethische Standards, unabhängige Prüfverfahren und eine deutlich höhere Transparenz bei der Entwicklung und dem Einsatz von KI-Modellen.
„Im Zeitalter speicherbasierter KI-Assistenten wird das Risiko von personenbezogenen Vorurteilen bei großen Sprachmodellen zu einer grundlegenden Herausforderung“, heißt es in der noch nicht peer-reviewten Studie. Deshalb sei die Entwicklung wirksamer Debiasing-Methoden unerlässlich für die Fairness bei Gehaltsempfehlungen.
Bereits im Vorjahr hatte eine Studie der New York University und der University of Cambridge gezeigt, dass sich KI-Bias durch gezielte Auswahl von Trainingsdaten deutlich reduzieren lässt.