Bias in künstlicher Intelligenz

Malou Ryborg über die versteckten Vorurteile der künstlichen Intelligenz (KI) und ihre weitreichenden Konsequenzen. Darum geht es:

Wie entstehen Biases in künstlicher Intelligenz?
Wie zeigen sie sich in der Praxis?
Welche gesellschaftlichen Folgen haben sie?
Alle Gastbeiträge

Künstliche Intelligenz ist in kurzer Zeit zu einem festen Bestandteil unseres Alltags geworden. Sie hilft beim Schreiben von E-Mails, beantwortet Suchanfragen, unterstützt bei Finanzentscheidungen und gibt sogar Ratschläge zu Beziehungsfragen. Große Sprachmodelle (Large Language Models, LLMs) liefern schnell strukturierte und oft erstaunlich überzeugende Antworten.

Genau darin liegt ihre Stärke, aber auch ihr Risiko.

Denn obwohl KI-Antworten häufig objektiv und rational wirken, sind sie keineswegs neutrale Werkzeuge. Sie beruhen auf riesigen Mengen von Internetdaten. In diesen Daten steckt nicht nur Wissen, sondern auch eine lange Geschichte gesellschaftlicher Vorurteile, Stereotype und Ungleichheiten.

Wer KI unkritisch als objektiven Maßstab nutzt, riskiert deshalb, bestehende Verzerrungen nicht nur zu übernehmen, sondern weiter zu verstärken.

Warum wir KI so leicht vertrauen

Wann hast du zuletzt eine Antwort einer KI wirklich hinterfragt?

Sprachmodelle prägen heute zentrale Bereiche unseres Lebens, von alltäglichen Suchanfragen über Chatbots und Gesundheitsdaten bis hin zur Personalbeschaffung. Ihre Antworten wirken geordnet, sachlich und professionell. Genau dieses Auftreten schafft Vertrauen.[1]

Die Forschung beschreibt dieses Phänomen als Automation Bias: Menschen neigen dazu, automatisierten Empfehlungen stärker zu vertrauen und die eigene kritische Reflexion zurückzufahren.[2]

Hinzu kommt ein zweiter Effekt: Sykophantie. Damit ist die Tendenz gemeint, dass KI-Modelle Nutzer:innen nach dem Mund reden, um hilfreich zu erscheinen. Dabei kann es passieren, dass logische Konsistenz oder faktische Genauigkeit in den Hintergrund geraten. Paradoxerweise stärkt das oft sogar das Vertrauen in die Systeme.[3]

Zusätzlich spielt der sogenannte Beauty-Bias eine Rolle. KI-Systeme nutzen oft Emojis, übersichtliches Formatting oder sprachlich besonders „glatte“ Formulierungen. Solche visuellen und stilistischen Elemente wirken als Aufmerksamkeitslenker: Nutzer:innen bewerten die Qualität einer Antwort dadurch häufig stärker nach ihrer Präsentation als nach ihrer tatsächlichen inhaltlichen Qualität. Dadurch können selbst schwächere oder fehlerhafte Antworten überzeugender wirken, wenn sie professionell oder ansprechend dargestellt sind.[4]

Je selbstverständlicher wir KI nutzen, desto größer wird ihr Einfluss. Wenn wir KI-Modelle unkritisch verwenden, räumen wir ihnen damit erhebliche Macht als Entscheidungsarchitekten über unsere Überzeugungen, Arbeitsprozesse und zentralen Lebensentscheidungen ein.[5]

Studien zeigen jedoch, dass KI-Modelle versteckte Biases enthalten. Was uns als objektive Antworten und hilfreiche Unterstützung erscheint, kann in Wirklichkeit das Ergebnis systematischer Verzerrungen sein. 

Was bedeutet Bias in Sprachmodellen? 

Unter Bias in Sprachmodellen versteht man systematische Fehler in Trainingsdaten oder Modellarchitektur, die zu unfairen und unausgewogenen Ergebnissen führen können.  

Diese Verzerrungen treten in unterschiedlichen Formen auf. Besonders problematisch wird es dort, wo KI bestimmte Gruppen benachteiligt, etwa aufgrund von Geschlecht, Alter oder ethnischer Herkunft.[6] Wenn Vorhersagen oder Entscheidungen eines KI-Modells bestimmte Personen oder Gruppen aufgrund geschützter Merkmale ungerechtfertigt benachteiligen, findet Diskriminierung statt.[7] 

Der Grund dafür liegt im Training der Modelle. Große Sprachmodelle werden mit enormen Mengen an Texten trainiert. Darin enthalten sind wissenschaftliche Erkenntnisse, Nachrichten, Bücher und Alltagskommunikation aber ebenso stereotype Inhalte und historisch gewachsene Vorurteile. 

KI wird damit zu einer Spiegelung gesellschaftlicher Denkmuster. Sie reproduziert die Strukturen der Daten, auf denen sie basiert. 

Implizite und explizite Biases 

In der Forschung zu Bias in großen Sprachmodellen unterscheiden Xinru Lin und Luyang Li (2025) zwei zentrale Arten von Verzerrungen in KI-Modellen: 

  • Expliziter Bias: offen sichtbar, etwa in Form diskriminierender Aussagen 
  • Impliziter Bias: subtil, indirekt und schwerer erkennbar [8] 

Viele heutige Systeme verfügen über Schutzmechanismen, die offensichtliche diskriminierende Aussagen blockieren. Das bedeutet jedoch nicht, dass Bias verschwindet.   

Gerade implizite Verzerrungen wirken oft im Hintergrund weiter.

Eine Studie von Shashank Gupta et al. (2023) zeigt dies anschaulich. [9] Wird ein Sprachmodell direkt gefragt, ob Menschen mit dunkler Haut schlechter in Mathematik seien, weist es diese Annahme meist zurück. Wird dem Modell jedoch ein bestimmtes persönliches Attribut zugewiesen, verändert sich das Ergebnis. In der Studie sank die Genauigkeit logischer und mathematischer Ausgaben, wenn das Modell angewiesen wurde, die Rolle einer Person mit dunkler Haut einzunehmen. [10] 

Dieses Beispiel verdeutlicht, dass implizite Biases in großen Sprachmodellen oft unsichtbar im Hintergrund wirken. Gerade deshalb ist es wichtig, sie zu verstehen, zu erkennen und kritisch zu hinterfragen. 

Wie zeigen sich Biases in der Anwendung von KI? 

Die impliziten Biases tauchen in vielen Bereichen auf – bei Bildern, Texten und konkreten Entscheidungen.  

Ein bekanntes Beispiel stammt aus der Bildgenerierung. In einer Studie wurde eine KI gebeten, einen “CEO” darzustellen. In 97 Prozent der Fälle zeigte das Ergebnis einen weißen Mann.[11] Umgekehrt wurden bei dem Begriff ‘Secretary‘ Personen zu 99 Prozent als weiblich dargestellt.[12]

Solche Ergebnisse lassen sich nicht allein mit realen Repräsentationsunterschieden erklären. Sie bilden gesellschaftliche Realität nur verzerrt ab und zeigen vielmehr, wie KI-Systeme bestehende Stereotype nicht nur widerspiegeln, sondern aktiv verstärken und reproduzieren.

Biases beim Verstehen von Texten 

Die impliziten Biases wirken sich auch auf die Verarbeitung von Texten aus. Genau hier wirken gelernte Assoziationen oft wie eine unsichtbare Brille, die Inhalte verzerrt interpretieren kann. 

Wenn eine KI einen von dir hochgeladenen Text analysiert, beeinflussen gelernte – und potenziell verzerrte – Assoziationen, wie das Material verarbeitet, interpretiert und eingeordnet werden kann, was potenziell zu Fehlinterpretationen führt.  

Studien zeigen etwa, dass Pronomen aufgrund von Geschlechterstereotypen häufig falsch zugeordnet werden. So wird etwa automatisch angenommen, dass “Ärzte” männlich seien oder “Kochen” primär weiblich konnotiert sei.  

Zudem werden nicht standardisierte Dialekte häufiger fälschlicherweise negativ bewertet, und regionale Sprachvarianten werden oft schlechter verstanden.[13]

 

Biases bei der Textproduktion 

Wenn KI selbst Texte erzeugt, können gesellschaftliche Vorurteile durch Wortwahl, Stil und inhaltliche Rahmung reproduziert werden. Besonders problematisch ist, dass dabei ganze Bevölkerungsgruppen einseitig oder klischeehaft dargestellt werden – vor allem marginalisierte Gruppen. 

Studien zeigen etwa, dass Sprachmodelle Frauen häufiger als „emotional“ und Männer häufiger als „stark“ beschreiben. Zudem reproduzieren sie regionale Stereotype, indem Afrika häufig als überwiegend dörflich dargestellt wird, während urbane Lebensrealitäten kaum sichtbar sind.

Bei Karrierefragen werden Männern häufiger technische oder naturwissenschaftliche Laufbahnen vorgeschlagen, Frauen dagegen eher kreative oder soziale Berufe. Dadurch werden bestehende Ungleichheiten nicht nur abgebildet, sondern weiter verstärkt. 

Darüber hinaus werden Nachrichten aus Minderheitenregionen seltener angezeigt, während Inhalte in dominanten Sprachen bevorzugt werden. Dies führt dazu, dass lokale Perspektiven marginalisiert werden und ein globales „Einheitsdenken“ gefördert wird. 

Sogar bei Zusammenfassungen zeigen sich Verzerrungen. Sprachmodelle überbetonen traditionelle Geschlechterrollen, lassen kulturell relevante Details aus und stellen globale Ereignisse häufiger aus westlicher Perspektive dar. Das beeinflusst, welche Perspektiven sichtbar werden und welche im Hintergrund bleiben.[14]

Biases in der technischen Leistungsfähigkeit 

Ähnliche Muster zeigen sich nicht nur in Inhalten, sondern auch in der technischen Leistung selbst. KI-Systeme funktionieren je nach Nutzergruppe unterschiedlich gut. Gesichtserkennung ist etwa häufig bei Männern genauer als bei Frauen, und Spracherkennungssysteme machen bei Schwarzen Sprecher:innen häufiger Fehler. Im Alltag führt das zu einer systematischen Benachteiligung bestimmter Gruppen.[15]

 

Typische Formen von Bias 

Die häufigsten Verzerrungen, die in den Sprachmodellen auftauchen, sind

  • Geschlechter-Bias: Die Reproduktion stereotyper Rollenbilder 
  • Alters-Bias: Voreingenommene Annahmen über Fähigkeiten basierend auf dem Lebensalter 
  • Kultureller oder regionaler Bias: Bevorzugung westlicher Perspektiven und Normen.   

Werden solche Stereotypen-Darstellungen oder verzerrte Zuschreibungen immer wieder reproduziert, entstehen Repräsentationsschäden. Diese können gesellschaftliche Ungleichheiten verfestigen und marginalisierte Gruppen weiter benachteiligen.[16]  

Die entscheidende Frage ist daher, welche Folgen diese Verzerrungen haben, wenn KI-Systeme nicht nur Inhalte erzeugen, sondern zunehmend auch reale Entscheidungen in zentralen Lebensbereichen beeinflussen. 

Konkrete Auswirkungen von Biases in KI-Modellen 

Trotz ihrer impliziten Biases werden KI-Modelle heute in vielen persönlichen und professionellen Bereichen eingesetzt. Problematisch wird es vor allem dann, wenn sie als objektive Entscheidungsgrundlage verstanden und benutzt werden.

Personalbeschaffung 

Ein bekanntes Beispiel ist der Fall von Amazon. Im Jahr 2018 nahm die Firma ein KI-basiertes Rekrutierungstool vom Netz, nachdem bekannt wurde, dass das System Frauen benachteiligte. Es war überwiegend mit Lebensläufen weißer Männer trainiert worden und hatte diese Muster übernommen.[17]

Weitere Studien zeigen, dass Sprachmodelle Bewerber:innen mit schwarz-, hispanisch-, asiatisch- oder arabisch klingenden Namen häufiger für Positionen mit niedrigerem Status empfehlen, während weiß klingende Namen häufiger mit höher rangigen Positionen verbunden werden.[18]

 

Gesundheitswesen 

Auch in der Medizin zeigen sich problematische Effekte.  

Studien deuten darauf hin, dass GPT-4 bei Patient:innen mit dunkler Haut seltener teure Diagnoseverfahren empfiehlt.[19] Zudem liefern KI-basierte Werkzeuge zur Hautkrebsdiagnostik bei unterschiedlichen Hauttönen teilweise ungenauere Ergebnisse.[20]

Solche Verzerrungen sind besonders kritisch, weil sie unangemessene Behandlungsempfehlungen begünstigen und bestehende gesundheitliche Ungleichheiten zwischen demografischen Gruppen weiter verschärfen können.[21]

 

Justiz 

Ähnlich gravierende Folgen zeigen sich im Justizsystem. Eine Analyse von ProPublica zum US-amerikanischen COMPAS-System, das Rückfallwahrscheinlichkeiten prognostizieren soll, zeigte, dass afroamerikanische Angeklagte systematisch benachteiligt wurden, indem sie deutlich häufiger als „Hochrisikofälle“ eingestuft wurden – selbst ohne Vorstrafen.[22]

Warum das gesellschaftlich relevant ist 

Das zentrale Problem der aktuellen KI-Entwicklung ist nicht nur die technische Fehlerrate. Entscheidend sind die tief verankerten, oft unsichtbaren Verzerrungen. 

Weil KI-Modelle auf menschlichen Daten basieren, spiegeln sie gesellschaftliche Vorurteile wider und verstärken sie durch ihre enorme Reichweite.  

Die Folgen reichen deshalb weit über technische Fragen hinaus. KI beeinflusst zunehmend, wer Zugang zu Chancen erhält, welche Informationen sichtbar werden und welche Weltbilder sich langfristig verfestigen. 

Zusammenfassung

Biases in großen Sprachmodellen sind keine Randerscheinung. Sie gehören zu den zentralen gesellschaftlichen Fragen der aktuellen KI-Entwicklung. 

Neue Forschung zeigt, dass sich das Problem von Biases in großen Sprachmodellen nicht einfach durch technischen Fortschritt löst. Mit zunehmender Modellgröße werden Verzerrungen oft subtiler, schwerer erkennbar und tiefer in den Systemen verankert.[23]  

Zwar reduzieren eingebaute Filter offen problematische Inhalte wie explizite Biases. Gleichzeitig entsteht jedoch ein Paradox: Mit zunehmender Größe und stärkerer Sicherheitsausrichtung zeigen Modelle häufig mehr implizite Biases sowie eine stärkere Tendenz zu menschlich wirkender Irrationalität.[24]  

Zudem sind neuere Modelle zunehmend darauf optimiert, Nutzende zufriedenzustellen. Dadurch bestätigen sie fehlerhafte Annahmen eher, anstatt problematische Anfragen kritisch zu hinterfragen.[25] Der Fokus verschiebt sich dabei von offenen Vorurteilen hin zu systemischen Effekten wie übermäßiger Anpassung an Nutzer:innen.[26]

Die Auseinandersetzung mit Biases ist deshalb nicht nur eine technische Aufgabe, sondern eine gesellschaftliche Notwendigkeit.  

Nur wenn wir die Funktionsweise, Grenzen und Risiken von KI verstehen, können wir Autonomie, Fairness und Vielfalt in einer zunehmend KI-geprägten Welt sichern. 

Wenn wir eine Zukunft wollen, in der mehr Menschen gleiche Chancen haben, müssen wir verhindern, dass KI die tief verankerten Vorurteile unserer Gegenwart unreflektiert reproduziert. 

Quellen 

  1. Angwin, J., Larson, J., Mattu, S., & Kirchner, L. (2022). Machine bias. In Ethics of data and analytics (pp. 254-264). Auerbach Publications.  
  2. Bini, P., Cong, L. W., Huang, X., & Jin, L. J. (2025). Behavioral economics of ai: Llm biases and corrections. Available at SSRN 5213130 
  3. Chen, G. H., Chen, S., Liu, Z., Jiang, F., & Wang, B. (2024, November). Humans or LLMs as the judge? a study on judgement bias. In Proceedings of the 2024 Conference on Empirical Methods in Natural Language Processing (pp. 8301-8327). 
  4. Chen, S., Gao, M., Sasse, K., Hartvigsen, T., Anthony, B., Fan, L., … & Bitterman, D. S. (2025). When helpfulness backfires: LLMs and the risk of false medical information due to sycophantic behavior. npj Digital Medicine8(1), 605.   
  5. Daneshjou, R., Vodrahalli, K., Liang, W., Novoa, R. A., Jenkins, M., Rotemberg, V., … & Chiou, A. (2021). Disparities in dermatology ai: Assessments using diverse clinical images. arXiv preprint arXiv:2111.08006 
  6. Dong, X., Wang, Y., Yu, P. S., & Caverlee, J. (2024). Disclosure and mitigation of gender bias in llms. arXiv preprint arXiv:2402.11190 
  7. Ferrara, E. (2024). Fairness and bias in artificial intelligence: A brief survey of sources, impacts, and mitigation strategies. Sci6(1), 3.  
  8. Galindez-Acosta, J. S., & Giraldo-Huertas, J. J. (2026). Trust behavior in AI emerges from distrust in humans: A machine learning study on decision-making guidance. Computers in Human Behavior Reports, 101024.  
  9. Guo, Y., Guo, M., Su, J., Yang, Z., Zhu, M., Li, H., … & Liu, S. S. (2024). Bias in large language models: Origin, evaluation, and mitigation. arXiv preprint arXiv:2411.10915 
  10. Gupta, S., Shrivastava, V., Deshpande, A., Kalyan, A., Clark, P., Sabharwal, A., & Khot, T. (2023). Bias runs deep: Implicit reasoning biases in persona-assigned llms. arXiv preprint arXiv:2311.04892 
  11. Hofmann, B. (2025). Biases in AI: acknowledging and addressing the inevitable ethical issues. Frontiers in Digital Health7, 1614105.  
  12. Köbis, N., Rahwan, Z., Rilla, R., Supriyatno, B. I., Bersch, C., Ajaj, T., … & Rahwan, I (2025). Delegation to artificial intelligence can increase dishonest behaviour. Nature646 (8083), 126-134.
  13. Lai, S., Kim, J., Kunievsky, N., Potter, Y., & Evans, J. (2025). Biased AI improves human decision-making but reduces trust. arXiv preprint arXiv:2508.09297 
  14. Lin, X., & Li, L. (2025). Implicit bias in LLMs: A survey. arXiv preprint arXiv:2503.02776 
  15. Luccioni, S., Akiki, C., Mitchell, M., & Jernite, Y. (2023). Stable bias: Evaluating societal representations in diffusion models. Advances in Neural Information Processing Systems36, 56338-56351. 
  16. Mpofu, K., Rienecker, J., Danielsson, O., & Thorsén, F. (2025). AI’s Preferences for Brands, Services and Governments. Services and Governments (March 21, 2025) 
  17. O’neil, C. (2017). Weapons of math destruction: How big data increases inequality and threatens democracy. Crown.  
  18. Obermeyer, Z., Powers, B., Vogeli, C., & Mullainathan, S. (2019). Dissecting racial bias in an algorithm used to manage the health of populations. Science366(6464), 447-453.  
  19. Romeo, G., & Conti, D. (2026). Exploring automation bias in human-AI collaboration: a review and implications for explainable AI. Ai & Society41(1), 259-278 
  20. Tremewan, L. (2024, April 23). Gender bias in AI: Is there a problem with representation? Finder  
  21. Zack, T., Lehman, E., Suzgun, M., Rodriguez, J. A., Celi, L. A., Gichoya, J., … & Alsentzer, E. (2024). Assessing the potential of GPT-4 to perpetuate racial and gender biases in health care: a model evaluation study. The Lancet Digital Health6(1), e12-e22.  
  22. Zhao, Y., Wang, B., Wang, Y., Zhao, D., He, R., & Hou, Y. (2025, July). Explicit vs. implicit: Investigating social bias in large language models through self-reflection. In Findings of the Association for Computational Linguistics: ACL 2025 (pp. 1-12).
  23. Hofmann, B. (2025). Biases in AI: acknowledging and addressing the inevitable ethical issues. Frontiers in Digital Health7, 1614105; Lin, X., & Li, L. (2025). Implicit bias in LLMs: A survey. arXiv preprint arXiv:2503.02776 
  24. Bini, P., Cong, L. W., Huang, X., & Jin, L. J. (2025). Behavioral economics of ai: Llm biases and corrections. Available at SSRN 5213130; Dong, X., Wang, Y., Yu, P. S., & Caverlee, J. (2024). Disclosure and mitigation of gender bias in llms. arXiv preprint arXiv:2402.11190. 
  25. Chen, S., Gao, M., Sasse, K., Hartvigsen, T., Anthony, B., Fan, L., … & Bitterman, D. S. (2025). When helpfulness backfires: LLMs and the risk of false medical information due to sycophantic behavior. npj Digital Medicine8(1), 605; Köbis, N., Rahwan, Z., Rilla, R., Supriyatno, B. I., Bersch, C., Ajaj, T., … & Rahwan, I. (2025). Delegation to artificial intelligence can increase dishonest behaviour. Nature646(8083), 126-134. 
  26. Mpofu, K., Rienecker, J., Danielsson, O., & Thorsén, F. (2025). AI’s Preferences for Brands, Services and Governments. Services and Governments (March 21, 2025); Chen, S., Gao, M., Sasse, K., Hartvigsen, T., Anthony, B., Fan, L., … & Bitterman, D. S. (2025). When helpfulness backfires: LLMs and the risk of false medical information due to sycophantic behavior. npj Digital Medicine8(1), 605.

Malou Ryborg

MALOU RYBORG hält einen Bachelor in Philosophie sowie einen Master in Cross-Cultural Studies der Universität Kopenhagen. In ihrer Arbeit bewegt sie sich an der Schnittstelle von Philosophie, Linguistik und Kulturwissenschaften. Ihr Fokus liegt auf der Untersuchung des Zusammenspiels von Kultur, Sprache und ethischer Urteilsbildung. Dabei analysiert sie insbesondere den Umgang mit kulturellen Differenzen und unterschiedlichen Weltanschauungen im Kontext globaler Konflikte und internationaler Problemlösungen.

 

×

Membership Information

You have selected the Kostenlos membership level.

Der Preis für den Zugang beträgt 0.00€.

Konto-Informationen

FREI LASSEN
Hast du schon einen Account? Hier einloggen