ChatGPT & Co: Fast jeder dritte KI-Nutzer findet Fehler

Eine Studie des TÜV-Verbands zeigt: Die Mehrheit der Nutzer ist mit den Ergebnissen generativer KI-Systeme zufrieden. Jeder Dritte jedoch findet Fehler. Kritischer Umgang ist daher wichtig. Aber wie kann man die Richtigkeit der Ergebnisse überprüfen? Der TÜV-Verband hat Empfehlungen.

KI gibt nicht nur kluge Antworten. Abbildung: Fizkes, Depositphotos

Generative Künstliche Intelligenz (KI) wie ChatGPT, Claude, LeChat oder DeepSeek wird immer häufiger genutzt, doch viele Anwender stehen den Ergebnissen kritisch gegenüber. Zwar geben drei von vier (75 Prozent) Nutzer an, mit den Ergebnissen zufrieden zu sein, jedoch überprüfen knapp vier von fünf (78 Prozent) die KI-Inhalte durch eigene Recherchen. Das geht aus einer repräsentativen Forsa-Umfrage im Auftrag des TÜV-Verbands unter 1.001 Personen ab 16 Jahren hervor. Um sich abzusichern, fragen 44 Prozent der Nutzer die KI explizit nach Quellenangaben. Des Weiteren empfindet fast jeder Zweite (48 Prozent) die KI-Antworten als oberflächlich und 43 Prozent kritisieren mangelnde Konkretheit. Jeder dritte KI-Nutzer (31 Prozent) gibt an, dass die Anwendungen häufig fehlerhafte oder falsche Informationen liefern.

Jeder zweite Bundesbürger nutzt generative KI

„Die Ergebnisse generativer KI-Anwendungen sind in der Regel als Erstaufschlag hilfreich, aber alles andere als perfekt“, sagt Patrick Gilroy, Referent für Künstliche Intelligenz und Bildung beim TÜV-Verband. „KI-Nutzer sollten die Antworten der KI kritisch hinterfragen, Quellen checken und mit eigenen Erkenntnissen verknüpfen, um optimale Ergebnisse zu erzielen.“ Nur so könnten Fehler vermieden und die Potenziale der Technologie voll ausgeschöpft werden. „Im beruflichen Kontext zählt der kompetente und reflektierte Umgang mit KI-generierten Inhalten zu den wichtigsten Future Skills“, sagt Gilroy. Laut den Ergebnissen der KI-Umfrage des TÜV-Verbands wird generative KI derzeit von gut jedem zweiten Bundesbürger (53 Prozent) genutzt.

KI-Modelle erfinden überzeugend klingende Antworten

Die Qualität der KI-Ergebnisse hängt maßgeblich von den zugrunde liegenden Trainingsdaten ab, die lücken- oder fehlerhaft sein können. Die Datenbasis ist aber für die Nutzenden nur selten transparent. Darüber hinaus können algorithmische Verzerrungen oder gezielte Manipulationen durch politische oder wirtschaftliche Interessen bereits in der Entwicklung die Ergebnisse beeinflussen. So liefert beispielsweise das chinesische KI-Modell DeepSeek keine Antworten zu oppositionellen Bewegungen in China oder dem Tiananmen-Massaker. Auch das Grok-Modell von Elon Musks xAI zensierte zeitweise kritische Antworten des eigenen Modells, welche ihn und Donald Trump in ein schlechtes Licht rückten. Die Art der Programmierung und das Design der Modelle spielen eine Rolle, etwa wenn Systeme bestimmte Inhalte und Quellen priorisieren oder filtern.

KI-Systeme wie ChatGPT stehen auch in der Kritik, weil sie immer wieder erfundene („halluzinierte“) Informationen ausgeben oder sogar Quellen erfinden, anstatt Nichtwissen einzugestehen. Anstatt Lücken oder mögliche Fehler kenntlich zu machen, „dichtet“ die KI zunächst überzeugend klingende Antworten hinzu. Mittlerweise bieten viele KI-Anbieter verbesserte „Deep Research“-Funktionen, die detailliertere Analyseaufgaben mitsamt Internetrecherchen ermöglichen. Die bald erwarteten Leitlinien für Allzweck-KI (GPAI Codes of Practice) des europäischen KI-Büros, die im Rahmen des EU AI Acts formuliert werden, könnten hier einen Fortschritt bringen.

Sicherer Umgang mit KI: Tipps für den Faktencheck

Um generative KI sinnvoll und sicher einzusetzen, empfiehlt der TÜV-Verband:

Quellen prüfen: Inhalte mit verlässlichen Nachrichtenportalen, wissenschaftlichen Publikationen oder offiziellen Dokumenten abgleichen. Denn KI-Chatbots durchsuchen je nach Anbieter und Modell teils keine externen Quellen in Echtzeit – sie verarbeitet bestehende Daten aus ihrem Training oder vordefinierten Datenquellen.
Faktencheck nutzen: Spezialisierte Websites wie FactCheck.org oder Snopes zur Überprüfung heranziehen. Auch eine herkömmliche Internetsuche kann helfen, Falschinformationen aufzudecken und Fakten zu verifizieren.
Quellen vergleichen: Informationen aus unabhängigen Quellen gegeneinander abwägen, bei Unsicherheiten Experten befragen. Ein breiter Quellensatz verringert das Risiko einseitiger oder verzerrter Darstellungen.
Aktualität sicherstellen: Veröffentlichungsdatum und Relevanz der Informationen überprüfen. Veraltete Daten können zu falschen Schlussfolgerungen führen.
Logik und Konsistenz prüfen: Widersprüche oder nicht plausible Aussagen erkennen. Fehlerhafte oder unschlüssige Inhalte deuten darauf hin, dass eine Information nicht zuverlässig ist.
Bias hinterfragen: Entstehung, Perspektiven und mögliche Verzerrungen der KI-generierten Inhalte bedenken. KI-Chatbots spiegeln oft vorhandene Vorurteile aus Trainingsdaten wider.