Insight

Generative KI, Bias, Halluzinationen und DSGVO

15.06.2023

Locations

Beim Einsatz von generativer Künstlicher Intelligenz (KI) gewinnen insbesondere die Themen Bias und Halluzinationen an praktischer Bedeutung. Diese Problematiken können sowohl beim Einsatz von externen AI-Tools (wie z.B. ChatGPT) auftreten als auch bei der Entwicklung eigener KI-Modelle. Hiermit wird dargestellt welche datenschutzrechtlichen Problematiken nach der Datenschutz-Grundverordnung (DSGVO) in Bezug darauf existieren und welche Möglichkeiten es gibt, diese zu lösen.

1. Was ist Bias in KI?
KI Bias(es) sind Verzerrungseffekte bei der Entwicklung und Verwendung von KI. Insbesondere spiegeln sich im Machine Learning (ML), einer Unterkategorie von KI, häufig eine Tendenz menschlicher Vorurteile und Voreingenommenheit wider. KI-Bias tritt auf, wenn ein Algorithmus als Folge fehlerhafter Annahmen im ML-Prozess systematisch verzerrte Ergebnisse liefert. Algorithmen können somit einerseits vorhandene Vorurteile aufzeigen und verstärken oder sogar neue Vorurteile schaffen, indem den verzerrten Datensätzen Glauben geschenkt wird.

Beispielsweise könnte ein Algorithmus zur Gesichtserkennung so trainiert werden, dass er einen Mann leichter erkennt als eine Frau, weil diese Art von Daten beim Training häufiger verwendet wurde (z.B. wurden in der Automobilbranche Crash-Tests lange Zeit lediglich mit Dummies durchgeführt, die dem männlichen Körper nachempfunden waren und so die Besonderheiten von Frauen bei Unfällen nicht ausreichend berücksichtigt haben). Ein weiteres Beispiel sind Bewerbungen, bei denen Algorithmen Fotos mit dunkler Hautfarbe und/oder ausländische Namen aussortieren, obwohl die fachliche Eignung anhand der vorhandenen Daten objektiv gleich oder besser zu beurteilen wäre.

Bias kann sich somit negativ auf Personen aus Minderheitsgruppen auswirken. Diskriminierung behindert dann wiederum die Chancengleichheit und der verzerrte Zustand wird aufrechterhalten.

Sofern es sich um sog. „Unconscious Bias“, d.h. unbeabsichtigte Verzerrungseffekte handelt, ist es schwierig, sie zu erkennen.

2. Black-Box Problematik
Verstärkt wird Bias in unstrukturierter KI durch die sog. Black-Box Problematik. Diese tritt bei bestimmten Formen der KI auf, wenn das Verhalten oder die Entscheidungen eines KI-Systems für Menschen nicht transparent oder nachvollziehbar sind. Insbesondere ist es dadurch oftmals schwierig zu verstehen, wie ein bestimmtes Ergebnis von der KI erzielt wurde. Die Black Box-Problematik kann in verschiedenen Bereichen der KI auftreten, einschließlich ML, neuronalen Netzen, Large Language Models (LLM)/Natural Language Processing (NLP) und anderen komplexen KI-Modellen. Die Black Box-Problematik wird besonders relevant, wenn KI-Systeme in sicherheitskritischen Bereichen eingesetzt werden, wie beispielsweise in autonomen Fahrzeugen, medizinischen Diagnosesystemen oder bei Finanzentscheidungen.

Obwohl schon bedeutende Fortschritte bei der Lösung der Black Box-Problematik erzielt wurden, bleibt sie eine Herausforderung und kann abschließend nur durch eine Zusammenarbeit von Forschung, Industrie und Regulierungsbehörden bewältigt werden. Stets sollte frühzeitig der Datenschutzbeauftragte miteinbezogen werden, um im Einzelfall vorhandene Anforderungen und Lösungsmöglichkeiten zu evaluieren.

3. Halluzinationen bei generativer KI
Sogenannte Halluzinationen bei generativer KI liegen vor, wenn die KI falsche Tatsachen (z.B. Fake-News) behauptet oder erfindet, d.h. insbesondere Quellen, Zusammenhänge oder Ereignisse nicht der Wahrheit entsprechend oder widersprüchlich darstellt. Auch hier ist die Verarbeitung personenbezogener Daten insbesondere durch die DSGVO geschützt. In diesem Fall gilt insbesondere das Recht auf Berichtigung betroffener Personen (im Einzelnen zur Erfüllung der Betroffenenrechte unser weiterer Blogeintrag).

4. Auswirkungen auf den Datenschutz
Unter der Voraussetzung, dass personenbezogene Daten verarbeitet werden, stellen undurchsichtige KI-Systeme, KI-Bias und Halluzinationen eine Bedrohung für den Schutz personenbezogener Daten dar. Dies gilt insbesondere, wenn KI-Systeme nicht transparent sind. Denn Trainingsdaten für KI benötigen oft eine Masse personenbezogener Daten (Big Data). Hierbei ist es oft schwer, eine Nachvollziehbarkeit für die betroffenen Personen zu gewährleisten (im Einzelnen zu den Transparenzanforderungen unser Blogbeitrag vom 6.6.2023). Sofern keine personenbezogenen Daten verarbeitet werden, ist die DSGVO nicht anwendbar. Insofern ist zunächst zu überprüfen, inwieweit für die jeweilige KI-Anwendung personenbezogene Daten erforderlich sind. Sofern dies der Fall ist, ist beispielweise eine Rechtsgrundlage erforderlich und es gelten weitere Anforderungen nach der DSGVO (oftmals wird z.B. eine Datenschutz-Folgenabschätzung (DSFA) erforderlich sein; auch hierzu ein weiterer Beitrag).

In Bezug auf Halluzinationen besteht vor allem die Gefahr, dass sensible personenbezogene Daten oder Geschäftsgeheimnisse fälschlicherweise erzeugt oder preisgegeben werden. Zudem können objektiv falsche Daten zu Datenschutzvorfällen führen und/oder von Angreifern missbräuchlich ausgenutzt werden.

Die Black-Box-Problematik erschwert überdies die Möglichkeit, den Nutzern einer KI-basierten Anwendung die Möglichkeit zu einer informierten Einwilligung zu geben, sofern diese erforderlich ist. Denn ohne Transparenz darüber, wie die personenbezogenen Daten betroffener Personen verwendet werden und welche Entscheidungen auf Grund dieser Daten getroffen werden, kann die Einwilligung nach bisherigen Maßstäben in der Regel nicht als informiert i.S.d. Art. 6 (1) (a) i.V.m. Art. 7 (1) DSGVO angesehen werden. Eine denkbare Lösung ist es, zumindest die bekannten Kriterien aufzulisten. Zudem könnte das Modell der aus dem Forschungsbereich bekannten sog. „Broad Consent“ auf KI-Systeme übertragen werden.

Unter der DSGVO besteht außerdem grundsätzlich ein Recht,
nicht einer ausschließlich auf einer automatisierten Verarbeitung – einschließlich Profiling – beruhenden Entscheidung unterworfen zu werden, die ihr gegenüber rechtliche Wirkung entfaltet oder sie in ähnlicher Weise erheblich beeinträchtigt (dies ist Gegenstand eines weiteren Blogbeitrags).

5. Was kann man tun, um Bias und Halluzinationen in generativer KI zu verhindern?
Um diese datenschutzrechtlichen Auswirkungen abzumildern, werden bereits im Forschungsbereich sowie auf regulatorischer Ebene Techniken für interpretierbares maschinelles Lernen, die Schaffung von Transparenzstandards für KI-Modelle und die Implementierung von Datenschutzgesetzen und -richtlinien, die speziell auf KI und automatisierte Entscheidungsfindung abzielen, eingesetzt. Im Unternehmen selbst sollten die bekannten Kriterien außerdem in einer Policy geregelt werden.

Weitere Maßnahmen, die ergriffen werden können, um Bias und Halluzinationen in KI-Systemen zu verhindern oder zumindest zu minimieren, müssen im Einzelfall evaluiert werden.

Dazu gehören - unter Einbeziehung des Datenschutzbeauftragten - insbesondere:

Sicherstellung von Datenqualität und Datenvielfalt: Es ist wichtig, bei Datenerhebung sicherzustellen, dass die verwendeten Daten qualitativ hochwertig, ausgewogen und repräsentativ sind. Je nach konkretem Anwendungsfall müssen verschiedene Bevölkerungsgruppen, Merkmale und Perspektiven angemessen abgedeckt werden. Falls Bias vorhanden ist, können Techniken wie Datenbereinigung, Gewichtung oder künstliche Erweiterung der Daten eingesetzt werden, um eine ausgewogenere Darstellung sicherzustellen.

Vielfalt in den Entwicklungsteams fördern: Idealerweise sollten diverse Teams von Entwicklern, Datenwissenschaftlern und Fachexperten mit unterschiedlichen Hintergründen, Geschlechtern, ethnischen Zugehörigkeiten etc. eingesetzt werden. So können unterschiedliche Perspektiven eingebracht werden und potenzielle Bias-Quellen besser erkannt und aufgedeckt werden.

Maßstab der Zweckbindung, Erforderlichkeit und Datenminimierung: Nach der DSGVO gelten zudem allgemeine Grundsätze wie die Zweckbindung (im Einzelnen unser Blogbeitrag zur Zweckänderung), Erforderlichkeit und Datenminimierung. Trainingsdaten dürfen grundsätzlich nur in dem Maße erhoben und verwendet werden, wie sie tatsächlich für den jeweiligen Zweck erforderlich sind.

Interpretierbare und transparente Modelle verwenden: Die Verwendung von Modellen, die erklären können, wie Entscheidungen getroffen werden, kann dazu beitragen, Bias besser nachvollziehen und beheben zu können. Wo möglich, sollte im Zweifel interpretierbaren Modellen wie Entscheidungsbäumen oder linearen Modellen der Vorzug gegeben werden. Kriterien und Verfahren für die Datenerhebung, -verarbeitung und -nutzung in KI-Systemen sollten transparent gemacht werden, soweit dies individuell möglich und erforderlich ist. Dadurch wird eine gewisse Kontrolle und Verständlichkeit für die Betroffenen ermöglicht.

Kontinuierliche Überwachung und Evaluierung: KI-Systeme sollten regelmäßig überwacht und evaluiert werden, um sicherzustellen, dass kein unerwünschter Bias auftritt oder sich im Laufe der Zeit verstärkt. Dies kann insbesondere durch den Einsatz von Metriken, Tests und externen Überprüfungen (Audits) geschehen. Zudem müssen die Trainingsdaten kontinuierlich überwacht und auf Bias und Diskriminierungen überprüft werden (Analyse/Monitoring). Im Hinblick auf Halluzinationen müssen zudem die KI-Ergebnisse ihrerseits – idealerweise auch menschlich - auf Richtigkeit und Vollständigkeit überprüft werden. Dies ist wegen der Rechenschaftspflicht auch zu dokumentieren.

Technisch-organisatorische Maßnahmen: Insbesondere zur Verhinderung von Halluziationen sind technisch-organisatorische Maßnahmen wie Zugangs- und Zugriffsbeschränkungen und Sicherheitsvorkehrungen zur Gewährleistung von Integrität und Vertraulichkeit anzuraten.

Interne Richtlinien und Standards einhalten: Die Entwicklung und Anwendung von KI sollte im Idealfall ethischen Richtlinien und Standards folgen. Organisationen sollten interne Richtlinien und Prozesse implementieren, um sicherzustellen, dass KI-Systeme fair, transparent und verantwortungsbewusst eingesetzt werden. Das Maß der ergriffenen technisch-organisatorischen und regulatorischen Maßnahmen sollte in einer Policy individuell geregelt und kommuniziert werden.

6. Fazit
Es bleibt eine Herausforderung, Bias und Halluzinationen in KI entgegenzuwirken.
Datenschutzrechtliche Vorgaben sind nur ein Teil der Lösung und es sind zusätzliche Maßnahmen (im Einzelnen oben dargestellt) erforderlich.
Die individuelle Lösung ist insbesondere vom eingesetzten KI-System, Verwendungszweck, dem Stand der Technik und weiteren regulatorischen Anforderungen – wie z.B. nach dem geplanten AI-Act – abhängig. Nach einer im Einzelfall durchgeführten Analyse, die vor allem auf die Besonderheiten des KI-Systems eingeht, kann jedoch faktisch und datenschutzrechtlich das derzeit Mögliche getan werden. Gern unterstützen wir Sie bei dieser Umsetzung.

Generative KI, Bias, Halluzinationen und DSGVO

Locations

Spezialgebiete

Verwandte Arbeitsbereiche