Spenden

Chatbots – universelle Experten oder Risiko für die Nachhaltigkeitstransformation

In unserem Spendenprojekt „Schreiben mit künstlicher Intelligenz – Fakten oder Fiktion? Chancen und Risiken von KI-Sprachmodellen: Wie einfach ist es für Nutzer*innen, verlässliche Informationen zu Klima- und Umweltschutzthemen zu erhalten?“ setzt sich Dr. Peter Gailhofer zum Abschluss mit den Herausforderungen, die KI-Sprachmodelle aus umweltpolitischer Sicht mit sich bringen, auseinander. Er beschreibt Ansätze zur Problemlösung sowie Regulierung.
Illustration, Frau am Schreibtisch vor zwei Bildschirmen, mit einem Robotertier

Menschliche Expertise in KI-Entwicklung einbinden

Sprachmodelle klingen wie Experten, sind aber systematisch unzuverlässig. Unser neues Policy Paper zeigt: Ohne menschliche Expertise könnten sie zu digitalen Scharlatanen mit gesellschaftlichen Folgen werden. Um die großen Potenziale der Technologie zu nutzen, braucht es wissenschaftliche Methoden und den Input menschlicher Expert*innen.

Das Versprechen universeller Berater

Chatbots, die auf Large Language Models (LLM) basieren, sind längst in unserem Alltag angekommen. Sie versprechen, schwierige Fragen evidenzbasiert zu beantworten, um bessere Entscheidungen zu ermöglichen. Die Chancen sekundenschnell und überall verfügbarer Informationen sind gerade aus Umweltsicht gigantisch. Das lässt sich an ganz konkreten Beispielen zeigen: Stellen wir uns vor, eine Region plant ihre Hochwasservorsorge für die kommenden Jahrzehnte. Ein KI-basierter Chatbot könnte aktuelle Klimaprojektionen, hydrologische und geologische Daten und sozioökonomische Indikatoren verarbeiten, Entscheidungsalternativen entwickeln und verständlich aufbereiten. Das System würde offenlegen, auf welchen Daten seine Berechnungen beruhen, wo Prognoseunsicherheiten bestehen und wie sich unterschiedliche Optionen – Deichverstärkung hier, ökologische Flutpolder dort, Renaturierung für zusätzlichen Rückhalteraum – auswirken: auf potenziell betroffene Interessen, Bevölkerungsgruppen, Finanzen. Damit würde die wissenschaftliche Grundlage solcher Entscheidungen verbessert. Sie wären leicht zugänglich und unvermeidbare Wertentscheidungen und ihre Folgen wären sichtbar. Sollen einkommensschwache Quartiere am Fluss prioritär geschützt werden oder zahlungskräftige Neubaugebiete? Wie schwer wiegen ökologische Belange gegen Baukosten? Welche Folgen hätten Einsparungen heute in der Zukunft?

So verheißungsvoll die Vision universeller KI-Berater klingt, so brüchig ist sie in der Realität. Sprachmodelle wirken überzeugend, selbst wenn ihre Antworten auf fehlerhaften Daten oder impliziten Vorannahmen beruhen. Das mindert nicht nur ihre Potenziale – es kann zu Fehlentscheidungen mit gravierenden Folgen führen.

Damit die Systeme Orientierung bieten, statt in die Irre zu führen, müssen wir die Probleme, ihre Ursachen identifizierenund vor allem Lösungsansätze entwickeln.

In einem aktuellen Policy Brief habe ich mir die wissenschaftliche Einordnung der Fähigkeiten und Schwachstellen der Bots näher angesehen und Ansätze zu ihrer Verbesserung untersucht. Darauf aufbauend überlege ich, wie eine Regulierung diese tatsächlich wirksam machen könnte.

Die Anatomie digitaler Eloquenz ohne Verständnis

In der wissenschaftlichen Diskussion über Sprachmodelle wird regelmäßig auf Harry Frankfurts wenig schmeichelhaften Begriff des 'Bullshit' zurückgegriffen. Damit meinte der Philosoph Aussagen, die nur auf eine überzeugende, als persuasive Wirkung abzielen. Frankfurt unterschied Bullshit von Lügen: Während der Lügner die Wahrheit kennt und sie gezielt verdreht, kümmert sich der Bullshitter überhaupt nicht darum, ob seine Aussagen stimmen – er will nur überzeugen.

Sandra Wachter und Kollegen bringen diese Problematik auf den Punkt: Large Language Models sind bestenfalls "incidental truthtellers". Sie erzeugen wahre Aussagen als zufällige Nebenprodukte statistischer Wahrscheinlichkeitsverteilungen. Sie verstehen nichts, simulieren aber Expertise mit beeindruckender Überzeugungskraft und verbreiten „homogenisiertes, stark vereinfachtes und nicht repräsentatives Wissen“ in großem Maßstab. Das kann an einer mangelhaften Datengrundlage liegen: wenn falsche Informationen häufiger im Internet kursieren als korrekte Fachliteratur, reproduzieren die auf dieser Grundlage trainierten Modelle sie mit derselben Autorität. Der Grund kann aber auch typischen methodischen Problemen geschuldet sein. Z.B. lernen die Systeme, den Nutzer*innen nach dem Mund zu reden: Sie bestätigen und verstärken falsche Annahmen, weil das positives Feedback auslöst, statt sie zu korrigieren.

Unsichtbare Wertentscheidungen

Ein zweites Problem reicht tiefer: KI-Systeme treffen nicht anders als menschliche Entscheider*innen unvermeidlich Werturteile – was hinter ihrer sehr überzeugenden Fassade aber oft nicht erkennbar ist. Welche Perspektiven Priorität erhalten, wie konkurrierende Interessen und Werte gewichtet werden – all das sind normative Entscheidungen, die im Output der Systeme aber oft unter dem Anschein technischer Eindeutigkeit gar nicht mehr so aussehen.

Silvie Delacroix hat hierfür den Begriff der "epistemischen Fassade" geprägt. Besonders gefährlich ist diese in Verwaltungsentscheidungen, bei denen Unsicherheit und Zielkonflikte sichtbar und verhandelbar bleiben müssen. Dafür gibt es eigentlich bewährte Verfahren: Abwägungsregeln, Begründungspflichten, transparente Entscheidungsprozesse. Wenn Chatbots Wertentscheidungen als neutrale Fakten darstellen, deren Herleitung und Gründe ausblenden, unterlaufen sie diese Verfahren. Damit verstärken sie die ‚epistemische Fassade‘: Was als klare Expertise erscheint, entzieht normative Unsicherheit und Wertkonflikte der notwendigen Auseinandersetzung und verfahrensmäßigen Verarbeitung.

Dass die epistemische Fassade gerade bei Umwelt- und Planungsentscheidungen die Risiken inhaltlicher Fehler noch einmal in fataler Weise verschärfen könnte, lässt sich an unserem obigen Beispiel verdeutlichen. Stellen wir uns vor, die KI-generierten Vorschläge für den Hochwasserschutz basieren auf eingeschränkten Datensätzen: auf häufig zitierten Immobilienwerten statt kleinräumiger Sozialstatistik, ökonomischen Schadensschätzungen statt Biodiversitätsindikatoren, Durchschnittswerten statt Szenarien künftiger Extremereignisse. Dann könnten Schutzmaßnahmen dort priorisiert werden, wo zahlungskräftige Quartiere betroffen sind, während einkommensschwache Bewohner*innen in Flussnähe zurückbleiben. Flutpolder würden in ökologisch sensiblen Gebieten angelegt, weil deren Wert im Datensatz kaum sichtbar ist. Die langfristigen Kosten – soziale Verwerfungen, Verlust von Artenvielfalt, Fehlinvestitionen in Milliardenhöhe – blieben ausgeblendet. Kritische Nachfragen würden erschwert, weil solche Entscheidungen mit der Autorität neutraler Expertise daherkämen und besonders objektiv erscheinen. Betroffene hätten womöglich kaum Chancen, Entscheidungen zu hinterfragen oder zu revidieren. Eine ganze Reihe realer Fälle algorithmischer Verwaltungssysteme zeigt, dass solche Befürchtungen keinesfalls rein spekulativ sind.

Expertise als Systemkomponente

Wie können wir solche Risiken vermeiden und die Potenziale „universeller Berater“ besser heben? Es gibt eine ganze Reihe plausibler Methoden, die hier helfen könnten und die eine wichtige Gemeinsamkeit haben: sie betten Fachexpert*innen in die Entwicklung, Betrieb und Weiterentwicklung der Systeme ein. Wissenschaftler*innen und wissenschaftliche Methodik helfen dann quasi als Systemkomponente, die Vertrauenswürdigkeit der Outputs von KI-basierten Chatbots sicherzustellen. 

  • Naheliegend ist die Integration menschlicher Expertise in den Lernprozess der KI-Systeme: Fachurteile können systematisch in Methoden wie Reinforcement Learning from Human Feedback (RLHF) einfließen. Statt wenig fundiertem Feedback haben dann Domänenexpert*innen effektiven Einfluss auf die Modellentwicklung. Dadurch könnten wissenschaftliche Standards im System selbst verankert werden.
  • Kuratierte Wissensräume könnten die Datengrundlage der Systeme verbessern: : Mittels Retrieval-Augmented Generation (RAG) können Sprachmodelle an validierte Datenbestände angebunden werden. Das Tool ClimSight demonstriert das Prinzip: Statt (nur) aus dem Internet oder aus seinen Trainingsdaten zu schöpfen, greift die KI auf wissenschaftlich kuratierte Klimaprojektionen, hydrologische Fachdaten und peer-reviewte Studien zu. So entstehen Antworten auf einer validierten Datenbasis – das kann mit Blick auf systemisches „Bullshitting“ einen erheblichen Unterschied machen.
  • Kollaborative Qualitätskontrolle: Am weitesten gehen partizipative Ansätze, wie sie z.B. das OpenWebUI-Whitepaper beschreibt. Fachgemeinschaften könnten Systemoutputs kontinuierlich bewerten, problematische Aspekte identifizieren und in digitalen Verfahren Verbesserungsstrategien entwickeln. Damit könnten dynamische Peer-Review-Prozesse für KI-Systeme entstehen, die auch die professionelle Debatte um den Umgang mit der Bewertung tatsächlicher oder normativer Unsicherheiten betreffen sollte.

Der Kern all dieser Ansätze liegt darin, dass wissenschaftliche Diskurskultur – mit ihrer kritischen Prüfung, transparenten Argumentation und fortlaufenden Fehlerkorrektur – zur Grundlage vertrauenswürdiger KI-Systeme werden könnte. Neben Verfahren wie strukturiertem Prompt Engineering, oder der Weiterentwicklung wissenschaftlich kuratierter Benchmarks in denen Fachexpertise als externes Korrektiv der Systeme wirken kann, würde die wissenschaftliche Debatte damit zum konstituierenden Element epistemisch verlässlicher Technologie.

Regulierung als notwendiger Rahmen

Doch technische und methodische Innovation allein wird kaum reichen. Damit Verfahren wie RAG, expert*innengestütztes RLHF oder partizipative Benchmarks tatsächlich zur Norm werden, braucht es rechtliche Leitplanken. Genau hier, das zeige ich im Policy Paper und anderswo ausführlich, bestehen bislang korrespondierende blinde Flecken. Das KI-Recht ist weitgehend blind für ökologische Risiken (auch in den hier angesprochenen Dimensionen), während beim Umweltrecht – aber auch in anderen betrachteten Rechtsgebieten – eine KI-Blindheit zu beklagen ist. 

So adressiert die EU-KI-Verordnung zwar Datenqualität, Risikomanagement und bestimmte Transparenzpflichten, die viele Ursachen systemischen „Bullshittings“ betreffen. Doch ihre Definition „hochriskanter“ Systeme ist eng gefasst: (spezialisierte) Chatbots für Umweltinformationen, Stadtplanung oder die Landwirtschaft dürftenmeist gar nicht unter diese Pflichten fallen. Selbst bei den Pflichten, die sich gerade an die großen Sprachmodelle richten, bleibt unklar, ob die vorgesehenen Regelungen die epistemischen Probleme überhaupt erfassen.

Andere Rechtsbereiche greifen noch kürzer. Das Verbraucherschutzrecht gilt nur im kommerziellen Kontext, umweltrechtliche Regelungen haben die neuen Systeme noch nicht im Blick und enthalten kaum Vorgaben, die an die Ursachen falscher oder missverständlicher Empfehlungen oder Prognosen gehen könnten. Damit besteht eine klaffende Regelungslücke, wo wissenschaftliche Evidenz und Verantwortung am dringendsten gebraucht wird: bei Entscheidungen mit hohen sozialen und ökologischen Folgekosten.

Eine „Epistemische Verträglichkeitsprüfung“ als Lösungsansatz?

Ein Ansatz, um die regulatorische Lücke zu schließen, könnte eine Art „Epistemische Verträglichkeitsprüfung (EVP)“ sein. Ein solches Instrument würde die beiden Grundprobleme – simuliertes Wissen und epistemische Fassaden – adressieren, partizipatives Review in verbindliche Verfahren übersetzen und die technikzentrierte Regulierung durch bewährte Instrumente des Umweltrechts ergänzen.

In Analogie zur Umweltverträglichkeitsprüfung würde die „EVP“ nicht unmittelbar ökologische, sondern epistemische Folgen – z.B. bei besonders sensiblen, oder von Verwaltungen genutzten Anwendungen – in den Blick nehmen: Sie würde z.B. prüfen, ob Systeme auf validierte Datenräume zugreifen, ob Unsicherheiten kenntlich gemacht werden, ob normative Abwägungen sichtbar bleiben und ob kontinuierliche Feedbackschleifen mit Fachgemeinschaften etabliert sind. Entscheidend wäre die verfahrensrechtliche Verankerung. Wie bei der UVP ginge es um ein strukturiertes Verfahren: verschiedene Stakeholder würden systematisch eingebunden, Bewertungskriterien offengelegt, Entscheidungsgrundlagen dokumentiert. Damit könnte das oben skizzierte Konzept kollektiver Evaluation von einer technischen Vision zu einem rechtsverbindlichen Standard für kritische Anwendungsfelder werden.

Orientierung statt Eloquenz

„Universelle KI-Berater“ sind keine ferne Zukunftsvision, sondern prägen bereits heute Entscheidungen in Verwaltung, Politik und Gesellschaft. Die Frage ist, ob sie zu Instrumenten werden, die echte Orientierung bieten, oder zu eloquenten Fassaden, die uns systematisch in die Irre führen.

Eine plausible Antwort liegt weder in rein technikfokussiertem „Solutionismus“ noch in pauschaler KI-Kritik, sondern in der systematischen Integration wissenschaftlicher Methodik und menschlicher Expertise in die Systeme der Zukunft. Epistemisch vertrauenswürdige Chatbots entstehen also nicht durch bessere Programmierung allein, sondern durch bessere institutionelle Einbettung. Nur dann werden digitale "Berater" ihrem Anspruch gerecht und könnten helfen, tragfähige Wege zu finden.

Dr. Peter Gailhofer ist Forschungskoordinator für den Bereich Ethik und Governance der Digitalisierung am Öko-Institut und arbeitet im Bereich „Umweltrecht & Governance“ am Standort Berlin.

Weitere Informationen

Policy Paper „Bessere Spielregeln für digitale Berater“

In unserem Spendenprojekt „Schreiben mit künstlicher Intelligenz – Fakten oder Fiktion? Chancen und Risiken von KI-Sprachmodellen: Wie einfach ist es für Nutzer*innen, verlässliche Informationen zu Klima- und Umweltschutzthemen zu erhalten?“ befassten wir uns mit den spezifischen Risiken, aber auch mit den Chancen der neuen Sprachmodelle auf Basis künstlicher Intelligenz. KI-Sprachmodelle interagieren mit Nutzer*innen im Dialog und geben vertrauenswürdig erscheinende Antworten. Doch sind die Auskünfte immer richtig? Die Faktentreue der Antworten wird aktuell gesellschaftlich immer wieder diskutiert. Dabei sind Desinformationskampagnen in sozialen Medien zu Umweltthemen nicht neu. Um die Verbreitung der KI-Sprachmodelle politisch aktiv zu steuern, ist es wichtig, ihre Chancen und Risiken zu identifizieren. Aus diesem Grund haben wir in unserem Spendenprojekt einen Ansatz entwickelt, um Antworttexte von KI-Sprachmodellen zu wichtigen klimaschutzrelevanten Themen zu prüfen und untersuchen, ob sich die Faktentreue der Antworten über einen definierten Zeitraum ändert. Weitere Informationen gibt es in diesem Blogbeitrag: Fakt ist… sprachliche (Un)sicherheiten der künstlichen Intelligenz und im Blogbeitrag „KI-Sprachmodelle und die Wärmewende: Fakten oder Fantasie?“ mit ersten Ergebnissen aus dem Spendenprojekt  vom März 2024.

 

Keine Kommentare

Neuer Kommentar

* Pflichtfelder