Data Poisoning: Risiko für KI in Unternehmen

Das erschreckende Ergebnis des „Varonis 2025 State of Data Security Report": 99 Prozent der Unternehmen legen ihren KI-Tools sensitive Daten auf eine gefährliche Weise offen. Diese Trainingsdaten sind anfällig für Sicherheitsverletzungen und bergen ein weiteres Risiko: KI-Vergiftung.

Um zu verstehen, wie dies geschehen und warum dies so gefährlich sein kann, muss man den Schritt davor nachvollziehen: Neuronale Netze, große Sprachmodelle, also Large Language Models (LLMs), sowie Deep-Learning-Modelle – gemeinhin als KI-Tools bezeichnet – sind in hohem Maße von der Qualität und Integrität der Trainingsdaten abhängig. Diese Trainingsdaten können aus verschiedenen Quellen stammen, etwa dem Internet, staatlichen Datenbanken oder von Drittanbietern. Wer nun falsche oder verzerrte Datenpunkte in diese Trainingsdatensätze einbringt, kann das Verhalten eines Modells auf subtile oder drastische Weise verändern.

Diese Datenvergiftungsangriffe lassen sich je nach Absicht in zwei Kategorien einteilen: zielgerichtete und nicht zielgerichtete Angriffe. Zielgerichtete Datenvergiftungsangriffe (Data-Poisoning) manipulieren die Ausgaben von KI-Modellen auf eine bestimmte Weise. Hier könnte beispielsweise ein Modell, das zur Kreditwürdigkeitsprüfung eingesetzt wird, so manipuliert werden, dass es bestimmte Bevölkerungsgruppen diskriminiert oder nur bestimmten Personen Kredite gewährt. Nicht zielgerichtete Angriffe (Model-Poisoning) konzentrieren sich auf die Verschlechterung der allgemeinen Leistungsfähigkeit eines Modells. Bei autonomen Fahrzeugen könnte zum Beispiel ein nicht zielgerichteter Datenangriff dazu führen, dass das System die von den Sensoren empfangenen Daten
fehlinterpretiert. Ein „Stopp“-Schild könnte dann mit einem „Vorfahrt gewähren“-Schild verwechselt werden.

Einfallstor für vergiftete Daten

Zu den häufigsten Einfallstoren für Data-Poisoning zählen unbeaufsichtigte oder automatisierte Datenquellen. Diese werden ohne ausreichende Validierung in Analyse-, KI- oder Sicherheitsmodelle übernommen. Thomas Boele, Regional Director Sales Engineering beim Anbieter von Sicherheitslösungen Check Point, erklärt dies näher: „Wir haben bereits gesehen, dass Unternehmen ihre Modelle mit Daten aus öffentlich zugänglichen Foren füttern, ohne dass diese Daten überprüft wurden. Verfälschte Daten können aber auch über die Lieferkette – bestehend aus Datenprovidern, Marketingsoftware und Feeds aller Art – in die Trainingspipelines der KI-Tools einfließen.“ Boele weiter: „Wichtig ist, sich vor Augen zu führen, warum ein KI-Modell manipuliert werden soll: Ein Cyberkrimineller will Geld erbeuten. Wenn er KI-Tools manipuliert, lässt sich das Unternehmen damit erpressen.“

Welche Branchen sind besonders betroffen?

Grundsätzlich kommt es darauf an, wie viele Prozesse ein Unternehmen automatisiert hat und wie Daten in großer Menge verarbeitet werden. Allerdings gibt es in der Tat Branchen, die stärker von Data-Poisoning betroffen sind als andere. Ein Beispiel dafür ist die datenintensive Finanz- und Versicherungsbranche, die etwa Daten zur Betrugserkennung sammelt, Risk-Scores entwirft oder Transaktionsanalysen durchführt. Aber auch datenintensive Branchen wie E-Commerce, Internet of Things (IoT) und Security sind gefährdet.

Wie können Unternehmen erkennen, ob Daten vergiftet wurden?

So einfach die Manipulation durch Data-Poisoning ist, so schwer ist deren Erkennung. „Hier muss untersucht werden, ob es etwa Performance-Abfälle gibt oder ob eine Embedding-Drift stattfindet, also die Veränderung der verteilten Vektorrepräsentationen von Daten über die Zeit, die die Leistung von Machine- Learning-Modellen beeinträchtigen kann. Daher sollten Unternehmen immer die Data-Lineage nachvollziehen können. Das heißt, die Frage, aus welcher Quelle ein Datensatz stammt“, so Boele.

Was ist der wichtigste Schutz vor Data-Poisoning?

Der wichtigste Schutz ist Zero Trust für Daten: Zero Trust auf Daten angewendet heißt nichts anderes, als dass keine Datenquelle als vertrauenswürdig betrachtet und jede einzelne validiert, versioniert und geprüft wird. Externe Daten dürfen dann nicht ungeprüft in die Trainingspipelines einfließen. Neben
dem Zero-Trust-Prinzip geht es darum, mit Data-Governance und Data-Lineage die Kontrolle über die
Daten zu behalten. Jede Änderung muss sich nachvollziehen lassen – auditierbar und reproduzierbar.
Technisch lässt sich das bewerkstelligen, indem Daten in isolierten Trainingsumgebungen, sogenannten Sandboxes, getestet werden, bevor sie in die produktiven Modelle einfließen. Eine andere Form des Testings ist Adversarial Training, also mit gängigen Angriffsmustern Modelle resilienter zu machen. Boele: „Zusammengefasst lässt sich festhalten: Data-Poisoning ist gefährlich, weil jedes Unternehmen mehr Daten nutzt, als es kontrollieren kann.“

Data Poisoning in der KI: Das unterschätzte Risiko für Unternehmen

Einfallstor für vergiftete Daten

Welche Branchen sind besonders betroffen?

Wie können Unternehmen erkennen, ob Daten vergiftet wurden?

Was ist der wichtigste Schutz vor Data-Poisoning?

Thomas Boele

Das könnte Sie auch interessieren

DUP Magazin Newsfeed

Rettenmaier Frankfurt als „Arbeitgeber der Zukunft“ ausgezeichnet

DUP Magazin Newsfeed

M&L AG erhält Auszeichnung „Exzellente Beratung“ des Deutschen Innovationsinstituts

DUP Magazin Newsfeed

Kleh. Consulting & Solutions als „Unternehmen der Zukunft“ ausgezeichnet: Beratungshaus setzt neuen Standard für moderne, werteorientierte Unternehmensführung

DUP Magazin Newsfeed

Die Coaching Gesellschaft als „Business Innovator“ ausgezeichnet: Deutsches Innovationsinstitut würdigt herausragende Transformationskompetenz