Besuchen sie uns auch auf linkedin Besuchen sie uns auch auf facebook Besuchen sie uns auch auf instagram Besuchen sie uns auch auf youtube newsletter.subscribe

Anonymisierung – Fluch und Segen des Datenschutzes

Anonymisierung in der Digitalisierung (1/2)

Der Wunsch nach der freien Nutzung von Daten ist weit verbreitet. Sowohl öffentliche als auch private Einrichtungen aus Forschung und Wirtschaft bedürfen zur Evaluierung oder Weiterentwicklung ihrer Produkte immer mehr Daten und zwar für Zwecke, die über die ursprünglichen Erhebungszwecke hinausgehen oder unabhängig hiervon genutzt werden sollen. Solche Daten sind notwendig für die Entwicklung von KI und Big Data Anwendungen, für Marktforschung, statistische Analysen, Produktinnovationen sowie für Open Data Initiativen. Sofern hierbei vom Verantwortlichen einmal erhobene personenbezogene Daten (weiter)verwendet werden sollen, ist stets eine datenschutzrechtliche Grundlage notwendig. Hier hilft – wenn überhaupt – i.d.R. nur die Einwilligung des Betroffenen. Für viele dieser Zwecke sind allerdings bereits Datensätze mit nicht-personenbezogenem, sondern abstraktem Gehalt ausreichend. Für die Zweckerreichung ist die konkrete Zuordnung einer Information zu einer Person daher häufig nicht notwendig. An dieser Stelle kommen anonymisierte Daten in Betracht. Allerdings bestehen immer noch erhebliche Unsicherheiten auf dem Weg zu hinreichend anonymen Daten nach dem Datenschutzrecht oder in den Augen der Datenschutzbehörden und ihrer rechtlichen Betrachtung.

Das europäische Datenschutzrecht behandelt die Anonymisierung nur stiefmütterlich. Dadurch entsteht Unsicherheit, ob und wann Anonymisierungstechniken wirksam eingesetzt werden können – und müssen. Diese Unsicherheiten hemmen nicht nur die Entwicklung entsprechender Anonymisierungstechniken, sondern auch den zurzeit viel hervorgehobenen notwendigen Fortschritt im Bereich von KI und Big Data in Europa.

Tatsächliche Anforderungen an die Anonymisierung

In Bezug auf die Anwendung von Anonymisierungstechniken bestehen nach wie vor Unsicherheiten: Hierbei entstehen insbesondere Reibungspunkte dahingehend, dass ein hinreichendes Maß an Anonymität der Daten durch Verallgemeinerung, Löschung, Verfälschung, Hinzufügung der vorhandenen Informationen oder Synthetisierung herbeigeführt werden muss und gleichzeitig ein erforderliches Maß an (statistischer) Aussagekraft erhalten bleiben sollte, die durch das jeweilige Anonymisierungsverfahren verloren gehen kann.

Gleichzeitig müssen mittlerweile hohe Anforderungen an die Wirksamkeit der Anonymisierung gestellt werden. Denn aufgrund der fortschreitenden technischen Entwicklung und Verfügbarkeit von zusätzlichen Daten ist eine De-Anonymisierung heutzutage immer einfacher möglich. In vielen Fällen wird daher anstatt einer Anonymisierung tatsächlich eine Pseudonymisierung erreicht, die unter Zuhilfenahme zusätzlicher Daten wieder rückgängig gemacht werden kann.

Letztlich geht es bei der Beurteilung von Anonymisierungstechniken darum, das mit ihnen verbundene Restrisiko einer Identifizierung des Betroffenen zu berücksichtigen und soweit wie möglich auszuschließen. Für diese Evaluierung bedarf es vor Einsatz einer Anonymisierungstechnik, einer entsprechenden Planung durch Prüfung der jeweiligen Stärken und Schwächen sowie Festlegung der Voraussetzungen und der jeweiligen Zielsetzung des Anonymisierungsverfahrens. Die Wahl dieser jeweils bestmöglich geeigneten Lösung sollte auf der Grundlage einer Einzelfallbewertung und unter Berücksichtigung der im Teil 2 dargestellten rechtlichen Anforderungen an anonyme Daten erfolgen.

Nicht ausreichend ist die Eliminierung der sogenannten expliziten bzw. „direkten Identifikationsmerkmale“, also Namen, Anschriften, Personenkennzeichen, Bankverbindungen oder Telefonnummern. Es verbleiben anschließend genügend weitere Merkmale, die eine Person zumindest indirekt identifizieren können, beispielsweise durch Verknüpfung mehrerer indirekter Informationen oder anderem korrelierendem Wissen. Daher sind diese Merkmale weiter zu entfremden, um den Personenbezug so weit wie möglich verschwinden zu lassen. Hierfür haben sich mittlerweile vier verschiedene übergeordnete Techniken entwickelt, die – je nach Zweck und Umfang der anschließenden Nutzung der aus ihnen resultierenden Daten – ein hinreichendes Maß Datenanonymität hervorbringen können:

  • Randomisierung (zufällige Veränderung von Daten): Hierbei wird eine zufällige Veränderung der Daten vorgenommen, d.h. hier werden die Merkmale nach vorab definierten randomisierten Mustern verändert, etwa (i) indem die Werte eines Merkmals jeweils mit einer gewissen Wahrscheinlichkeit durch andere mögliche Merkmalsausprägungen ersetzt werden, (ii) ein zufälliger Wert zu den Werten addiert oder (iii) die Werte mit einem zufälligen Wert multipliziert werden.
  • Generalisierung (insbesondere Aggregation): Hierbei werden genaue Werte durch ungenauere Werte ersetzt, z.B. indem Daten zusammengefasst werden (Bsp.: Alter 25 zu Alter 20-30). Aus dem Gruppensatz kann in der Folge nicht mehr festgestellt werden, welchen genauen Wert eine Person innerhalb des groben Wertebereichs hat, was es weiter erschwert, Personen durch Aussondern zu re-identifizieren. Im Extremfall können durch Aussondern keine einzelnen Individuen mehr isoliert werden, sondern nur noch Gruppen von identischen Personen.
  • Permutation (zufällige Vertauschung von Daten): Hierbei werden die Werte des Merkmals untereinander vertauscht und somit die direkte Verbindung zwischen Daten und betroffener Person entfernt.
  • Datensynthetisierung (Erstellung komplett neuer, synthetischer Daten): Hierbei werden die echten Daten vollständig verworfen und durch neue, zufallsgenerierte Werte ersetzt. Die statistischen Verteilungen, nach denen die neuen Daten generiert werden, werden – meist mittels maschinellem Lernen – aus den echten Daten geschätzt, damit die synthetischen Daten den echten Daten statistisch möglichst ähnlich sind. Sowohl alle individuellen Werte sämtlicher Merkmale als auch die Zusammenhänge zwischen Merkmalen sind künstlich anhand des aus den Daten extrahierten Wahrscheinlichkeitsmodells generiert.


Nächste Woche geht es hier weiter mit dem zweiten Teil des Gastbeitrags von Mona Wrobel Anonymisierung in der Digitalisierung, in dem sie sich mit den rechtlichen Anforderungen an die Anonymisierung beschäftigen wird.


Die Autorin
Mona Wrobel ist Mitglied der Practice Area Technology, Media & Telecoms bei Taylor Wessing. Ihre Beratungsschwerpunkte liegen im IT-Vertragsrecht, Datenschutz- und Telekommunikationsrecht und E-Commerce.

In diesem Zusammenhang berät Mona Wrobel bei der Umsetzung europäischer und internationaler Datenschutzanforderungen. Aufgrund ihrer Beratungsschwerpunkte in globalen Datenschutz-und Digitalisierungsprojekten hat sie deutsche, japanische, amerikanische und kanadische Mandanten insbesondere bei der Implementierung konzernweiter Vertrags- und Datenschutzkonzepte unterstützt und berät hier regelmäßig.