
Datenschutz & KI
Künstliche Intelligenz verändert die Art, wie Unternehmen arbeiten – schneller, als es die meisten Vorstände auf dem Radar haben. Laut Bitkom setzen 2025 bereits 36 Prozent der deutschen Unternehmen KI ein, fast doppelt so viele wie im Vorjahr. McKinsey meldet global sogar 88 Prozent. Die Frage ist damit längst nicht mehr, ob KI zum Einsatz kommt, sondern wie.
Und genau hier liegt das Problem: In der Euphorie um Produktivitätsgewinne und Automatisierung wird ein entscheidender Faktor regelmäßig unterschätzt – der Schutz personenbezogener Daten. Dabei zeigen die Zahlen eine unmissverständliche Sprache: Seit Inkrafttreten der DSGVO wurden europaweit Bußgelder in Höhe von über 7,1 Milliarden Euro verhängt. Allein 2025 waren es 1,2 Milliarden. Die italienische Datenschutzbehörde verhängte Ende 2024 das weltweit erste DSGVO-Bußgeld gegen einen generativen KI-Anbieter: 15 Millionen Euro gegen OpenAI wegen fehlender Rechtsgrundlage für die Datenverarbeitung durch ChatGPT.
Wer KI einsetzen will, ohne zum nächsten Bußgeld-Beispiel zu werden, braucht mehr als guten Willen. Er braucht eine Architektur, die Datenschutz von Anfang an mitdenkt.
Das unsichtbare Risiko:
Was passiert, wenn Mitarbeiter Daten in KI-Systeme eingeben
Der Fall Samsung ging 2023 durch die Weltpresse: Innerhalb von nur 20 Tagen gaben Mitarbeiter in drei separaten Vorfällen vertraulichen Halbleiter-Quellcode und interne Meeting-Protokolle in ChatGPT ein. Eine Cyberhaven-Studie ergab, dass 3,1 Prozent der Wissensarbeiter, die ChatGPT nutzen, bereits mindestens einmal vertrauliche Firmendaten eingegeben haben. Bei tausend Mitarbeitenden sind das statistisch gesehen 31 Datenlecks – nicht durch Hacker, sondern durch die eigene Belegschaft.
Das Problem ist strukturell: Cloud-basierte KI-Dienste wie ChatGPT, Google Gemini oder Microsoft Copilot verarbeiten Eingaben auf Servern, die häufig außerhalb der EU stehen. Ein US-Gericht verpflichtete OpenAI sogar zur dauerhaften Aufbewahrung aller ChatGPT-Konversationen – ein direkter Konflikt mit dem Recht auf Löschung nach Artikel 17 DSGVO. Wer also einen Kundennamen, eine IBAN oder eine Diagnose in ein solches System eingibt, hat die Kontrolle über diese Daten im schlimmsten Fall dauerhaft verloren.
Serverstandort ist kein Nice-to-have – er ist Compliance-Voraussetzung
Viele Unternehmen wiegen sich in Sicherheit, weil ihr Cloud-Anbieter europäische Rechenzentren anbietet. Doch der Serverstandort allein reicht nicht aus. Der US CLOUD Act von 2018 ermöglicht amerikanischen Behörden den Zugriff auf Daten von US-Unternehmen – selbst wenn diese physisch in Frankfurt oder Amsterdam liegen. Der Europäische Datenschutzausschuss (EDSA) stellt klar: Auch der Fernzugriff aus einem Drittland auf EU-Daten gilt als Datenübermittlung im Sinne der DSGVO.
Das EU-US Data Privacy Framework von Juli 2023 sollte Abhilfe schaffen, doch seine Zukunft bleibt ungewiss. Die Erfahrung mit Safe Harbor und Privacy Shield – beide vom EuGH gekippt – mahnt zur Vorsicht. Unternehmen, die auf der sicheren Seite stehen wollen, setzen deshalb auf EU-Anbieter mit Servern in der DACH-Region und führen vor jeder Drittlandübermittlung ein Transfer Impact Assessment durch.
Die TikTok-Entscheidung von Mai 2025 – ein Bußgeld von 530 Millionen Euro für die Übermittlung europäischer Nutzerdaten nach China – zeigt, wie ernst Aufsichtsbehörden den Serverstandort nehmen. Und in Deutschland verhängte der BfDI im Juni 2025 gegen Vodafone eine Strafe von 45 Millionen Euro – unter anderem wegen mangelhafter Kontrolle bei der Datenverarbeitung durch Partnerunternehmen.
ISO 27001 als Fundament – und warum ISO 42001 der nächste Schritt ist
Informationssicherheit ist kein Projekt, das man einmal abschließt und abhakt. Sie ist ein kontinuierlicher Prozess – und ISO 27001 ist der international anerkannte Standard dafür. Die Zertifizierung nach ISO 27001 bestätigt, dass ein Unternehmen systematische Maßnahmen zum Schutz der Vertraulichkeit, Integrität und Verfügbarkeit von Informationen implementiert hat.
Doch ISO 27001 allein adressiert KI-spezifische Risiken nicht vollständig. Data Poisoning, Model Inversion Attacks oder adversariale Angriffe auf KI-Modelle fallen nicht in ihren Geltungsbereich. Hier schließt der im Dezember 2023 veröffentlichte ISO/IEC 42001 eine wichtige Lücke – der weltweit erste Managementsystem-Standard speziell für Künstliche Intelligenz. Die gute Nachricht: Unternehmen mit bestehender ISO-27001-Zertifizierung können die ISO-42001-Compliance schätzungsweise 30 bis 40 Prozent schneller erreichen, da viele Kontrollmechanismen direkt übertragbar sind.
DSGVO und EU AI Act: Zwei Regulierungen, eine Compliance-Strategie
Mit dem EU AI Act (Verordnung 2024/1689) ist seit August 2024 ein weiteres mächtiges Regelwerk in Kraft. Seit Februar 2025 gelten Verbote für KI-Systeme mit inakzeptablem Risiko – darunter Social Scoring und invasive biometrische Überwachung – sowie eine KI-Kompetenzpflicht für Arbeitgeber. Seit August 2025 greifen die Regeln für General Purpose AI, also auch für Large Language Models. Ab August 2026 werden sämtliche Bestimmungen für Hochrisiko-KI wirksam.
Die Sanktionen sind empfindlich: bis zu 35 Millionen Euro oder 7 Prozent des weltweiten Jahresumsatzes. Entscheidend ist: DSGVO und AI Act gelten parallel – Artikel 2 Absatz 7 der KI-Verordnung bestätigt dies ausdrücklich. Unternehmen, die diese Regulierungen getrennt behandeln, schaffen doppelte Strukturen und riskieren Lücken. Experten empfehlen eine integrierte Compliance-Strategie mit gemeinsamer Dokumentation und kombinierten Audits.
Der Europäische Datenschutzausschuss hat in seiner Opinion 28/2024 eine wichtige Klarstellung vorgenommen: Als praxisrelevanteste Rechtsgrundlage für KI-Entwicklung gilt das berechtigte Interesse nach Artikel 6 Absatz 1 lit. f DSGVO. Gleichzeitig fordern die Aufsichtsbehörden für KI-Anwendungen eine Datenschutz-Folgenabschätzung (DSFA) als Standardprozess – nicht als optionale Kür.
Der blinde Fleck: Vektordatenbanken als unterschätzte Verarbeitungsstufe
Ein Thema, das in der DSGVO-Debatte rund um KI sträflich vernachlässigt wird, sind Vektordatenbanken. Sie bilden das technische Rückgrat vieler moderner KI-Anwendungen – insbesondere im Bereich Retrieval Augmented Generation (RAG), wo Unternehmenswissen in durchsuchbare Embeddings umgewandelt wird.
Was dabei oft übersehen wird: Die Umwandlung von Text in numerische Vektoren (Embeddings) ist eine eigenständige Form der Datenverarbeitung im Sinne von Artikel 4 Nr. 2 DSGVO. Auch wenn in der Vektordatenbank kein Klartext gespeichert wird, können Embeddings unter Umständen personenbezogene Informationen rekonstruierbar enthalten. Forschungsarbeiten zeigen, dass aus Embedding-Vektoren unter bestimmten Bedingungen Teile des Originaltextes wiederhergestellt werden können – einschließlich Namen, Adressen und anderer PII.
Noch kritischer: Die persistente Speicherung in einer Vektordatenbank wie Pinecone, Weaviate oder Qdrant stellt eine zusätzliche Verarbeitungsstufe dar, die eine eigene Rechtsgrundlage erfordert. Wer personenbezogene Daten zunächst in ein LLM eingibt und die Ergebnisse dann in einer Vektor-DB speichert, hat es nicht mit einer, sondern mit mindestens zwei DSGVO-relevanten Verarbeitungsvorgängen zu tun – jeweils mit eigenen Anforderungen an Rechtsgrundlage, Zweckbindung, Speicherbegrenzung und Betroffenenrechte.
Die Konsequenz ist klar: Spätestens bevor Daten in Vektordatenbanken landen, müssen personenbezogene Informationen pseudonymisiert und markiert werden. Wer diesen Schritt auslässt, riskiert nicht nur Bußgelder, sondern macht es sich auch praktisch unmöglich, Betroffenenrechte wie das Recht auf Löschung umzusetzen – denn aus einer Vektordatenbank lassen sich einzelne Datensätze nur schwer gezielt entfernen.
Der Anonymisierungsprozess: Wie die Mask API personenbezogene Daten schützt
An genau dieser Stelle setzt eine Lösung an, die wir mit dem Team von rpc Data & Technology umgesetzt haben. Die Mask API ist eine DSGVO-konforme Anonymisierungs-Schnittstelle, die personenbezogene Daten erkennt und pseudonymisiert, bevor sie ein KI-Modell oder eine Vektordatenbank erreichen. Das Prinzip ist ebenso einfach wie wirkungsvoll: Was nie als Klartext in ein KI-System gelangt, kann dort auch nicht missbraucht werden.
DSGVO-konformer Anonymisierungsprozess
1. Eingabe des Originaltexts
Nutzer gibt Text mit personenbezogenen Daten in das System ein. >> "Max Mustermann, geb. 12.03.1985, IBAN: DE99 0815..."
2. ERKENNUNG
PII-Detektion
KI-Modell erkennt 22+ Kategorien personenbezogener Daten (PII)
>> NAME, GEB., IBAN, PHONE, etc.
3. MASKIERUNG
Pseudoanonymisierung
Konsistente Ersetzung durch Platzhalter im gesamten Text
>> (NAME_1), geb. (DOB_1), IBAN: (IBAN_1)
4. VERARBEITUNG
KI / LLM / Vektor-DB
Sichere Verarbeitung durch KI-Modell oder Speicherung in Vektor-DB
>> Azure Open AI, LLM, Embeddings, RAG,...
5. AUSGABE
Sicheres Ergebnis
Anonymisierte Antwort ohne personenbezogene Daten
>> (NAME_1) empfehlen wir folgende Lösung...
Der Prozess läuft in fünf Schritten ab. Im ersten Schritt gibt ein Nutzer einen Text mit personenbezogenen Daten in das System ein – beispielsweise eine Kundenanfrage, die Name, E-Mail-Adresse und IBAN enthält. Im zweiten Schritt erkennt ein KI-Modell automatisch über 22 Kategorien personenbezogener Daten: von Namen und E-Mail-Adressen über Telefonnummern und IBANs bis hin zu Gesundheitsdaten, Kfz-Kennzeichen und Steuer-IDs.
Im dritten Schritt werden die erkannten Daten durch konsistente Platzhalter ersetzt. Das Wort 'konsistent" ist dabei entscheidend: Wenn 'Max Müller" im Text dreimal vorkommt, wird er jedes Mal durch denselben Platzhalter [NAME_1] ersetzt – so bleibt der Kontext erhalten, ohne dass die Person identifizierbar ist. Im vierten Schritt wird der anonymisierte Text an das KI-Modell oder die Vektordatenbank übergeben. Und im fünften Schritt kommt ein Ergebnis zurück, das keine personenbezogenen Daten mehr enthält.
Warum On-Premise den Unterschied macht
Was die Mask API von vielen Alternativen unterscheidet, ist ihr Deployment-Modell: Sie läuft ausschließlich auf der Infrastruktur des Kunden. Keine Daten verlassen das Unternehmensnetzwerk, kein Drittanbieter erhält Zugriff, kein Datentransfer in die Cloud. Die technische Umsetzung basiert auf Bun und Elysia – einer der schnellsten JavaScript-Runtime-und-Framework-Kombinationen, die heute verfügbar sind – und erreicht eine Verarbeitungszeit von unter zwei Sekunden pro Anfrage bei einem Speicherverbrauch von nur 35 Megabyte. Das bedeutet: Datenschutz ist hier kein Performance-Killer, sondern nahezu unsichtbar für den Endanwender.
Die Lösung ist zudem kosteneffizient. Durch den Einsatz optimierter KI-Modelle liegen die Kosten bei etwa 0,15 Euro pro 1.000 Anfragen – ein Bruchteil dessen, was ein DSGVO-Verstoß kosten würde.
Was Entscheider jetzt tun sollten
Die regulatorische Landschaft für KI hat eine kritische Masse erreicht. Wer KI einsetzt – und das tun inzwischen mehr als ein Drittel der deutschen Unternehmen –, steht in der Pflicht, den Datenschutz nicht nachzulagern, sondern von Anfang an mitzudenken. Drei konkrete Schritte sind dabei entscheidend.
Prüfen Sie, wo in Ihrem Unternehmen personenbezogene Daten in KI-Systeme eingegeben werden. Die Realität ist häufig ernüchternder als die Policy: Mitarbeiter nutzen ChatGPT über private Accounts, kopieren Kundendaten in Prompt-Felder oder speisen Dokumente in KI-Tools ein, die niemand im IT-Team kennt. Eine ehrliche Bestandsaufnahme ist der erste Schritt.
Implementieren Sie eine vorgeschaltete Anonymisierungslösung für alle KI-Anwendungen – insbesondere dort, wo Daten in Vektordatenbanken gespeichert werden. Die Mask API ist ein Beispiel dafür, wie das technisch elegant und performant gelöst werden kann, ohne bestehende Workflows zu unterbrechen.
Entwickeln Sie eine integrierte Compliance-Strategie, die DSGVO und EU AI Act gemeinsam adressiert. Nutzen Sie bestehende ISO-27001-Strukturen als Sprungbrett für ISO-42001-Compliance. Und stellen Sie sicher, dass Ihre KI-Infrastruktur – ob Cloud oder On-Premise – den Anforderungen an Serverstandort, Datentransfer und Betroffenenrechte genügt.
Die Frage ist nicht, ob Ihr Unternehmen KI nutzen wird.
Die Frage ist, ob Sie es so tun werden, dass Sie auch in drei Jahren noch ruhig schlafen können.

