Archive for the ‘postprivacy’ tag
Heute im Angebot: 35 Millionen qualifizierte GMail-Adressen
Matthijs R. Koot von der Universität Amsterdam hat gestern einen Artikel gepostet der mich ungläubig mein Terminal aufmachen liess um zu überprüfen, was er da geschrieben hat. Die Liste aller GMail-Nutzer ist abrufbar und zwar ohne mit irgendeiner fiesen Brute-Force-Attacke zu arbeiten. Laut Koot hat er innerhalb eines Monats 35Mio Profile geladen.
Und tatsächlich erlaubt nach wie vor die robots.txt das automatische Durchforsten. Dank Sitemap-XML bekommt man sogar die komplette Liste frei Haus geliefert.
Die Sitemap enthält ca. 7000 URLs zu weiteren Listen von jeweils 5000 Profilen. Das macht tatsächlich 35.000.000 Profile. Eine Profil-URL enthält im Normalfall den Namen des Nutzers und die Nutzer-ID. Letztere ist offensichtlich identisch mit der GMail-Adresse. Hat der Nutzer – wie ich – weitere Angaben zu seiner Person gemacht sind diese auf dieser Seite verfügbar und können ausgelesen werden.
Bei mir ist zum Beispiel die Verknüpfung von twitter zu Buzz eingestellt, was meine Tweets verfügbar macht. Da ich manchmal auch Google Latitude verwende kann man mit minimalem Aufwand meinen Hauptaufenthaltsort aus der URL zu einer statischen Karte auslesen.
Ich bin mir doch ziemlich sicher, dass die meisten Nutzer von GMail kein gesteigertes Interesse daran haben, dass ihre Adressen mit Nutzernamen, Foto und möglicherweise weiteren Infos wie Picasa-Account in irgendwelchen Datenbanken von meist dubiosen Firmen oder Personen landen. Und ganz ehrlich: von den VZ-Netzwerken habe ich das Bewusstsein für den Schutz der Privatsphäre nicht erwartet. Von Google allerdings schon.
Wege aus der Privatsphärenfalle
Es gilt heute bei vielen als gegeben, dass private Datensätze in verschiedenen Datenbanken mittels geeigneter Techniken gematcht werden können und damit ein Bezug zwischen zugeordneten und losen Daten hergestellt werden kann. Oder konkret: wenn ich auf der einen Site mein Geburtsjahr, -ort und Geschlecht angebe und auf der anderen Site den Geburtsort, Geschlecht und Ausbildung, kann ein Dritter mit Zugriff auf beide Datensätze, eine Beziehung zwischen beiden Datensätzen herstellen. Für viele (nicht alle) ist die Vorstellung, dass ihre sauber getrennten Identitäten in verschiedenen sozialen Aspekten verknüpft werden können ein Graus.
Die Frage ist daher, ob es ein Verfahren gibt, die Vorteile von digitalen Identitäten zu geniessen ohne die Kröte der erodierenden Privatsphäre in Kauf nehmen zu müssen. Eine erste Lösung stellte Latany Sweeney 2002 in dem Aufsatz k-Anonymity: A Model for Protecting Privacy dar. Die Idee ist recht einfach. Es werden einfach Daten ‘dequalifiziert’ oder unscharf gemacht. Aus dem Geburtsort könnte so zum Beispiel der Landkreis werden. Eine deutsche Darstellung, wie das Verfahren funktioniert hat Dietmar Hauf von der Uni Karlsruhe veröffentlicht.
In einem neuen Papier auf arXiv beweisen drei Autoren der Purdue University jedoch, dass dieses Verfahren ohne Erweiterung keinen ausreichenden Schutz bietet. Sie verknüpfen in der Arbeit “Provably Private Data Anonymization: Or, k-Anonymity Meets Differential Privacy” das Modell der k-Anonymity mit der als Differential Privacy bezeichneten Methode, die zum Beispiel für den facebook-Gegenentwurf diaspora diskutiert wird.