Archive for the ‘privacy’ Category
Domain-übergreifende Hilfs-Cookies mit “window.name”
Die aktuelle Diskussion über Canvas-Fingerprints hat wieder gezeigt, dass sowohl Browser als auch HTML und JavaScript viele Einfallstore für Datensammler bieten. Viele Funktionen, die den Nutzern eigentlich den Umgang mit dem Web erleichtern sollen stellen sich früher oder später als Privacy-Lücke heraus (z.B. kann das Caching für einen ausgezeichneten Cookie-Ersatz verwendet werden).
Für Datensammler stellt sich jedoch immer auch das Problem der Domaingrenze. D.h. die Browser verhindern inzwischen den Zugriff auf Informationen oder Funktionen, die von einer anderen Domain im Browser angelegt wurden.
“window.name” funktioniert Domain-übergreifend
Allerdings gibt es mit dem Objekt window.name einen Store für beliebige Inhalte, die von einer Domain zur nächsten übermittelt werden können. Ein einfacher Test in der Browserconsole zeigt, wie es funktioniert:
> window.name
< ""
> window.name = "id"
< "id"
Ruft man nun in der aktuellen Seite einen Link auf, der auf eine andere Domain verweist und fragt wiederum window.name ab erhält man weiterhin “id”:
> window.name
< "id"
Die Ursprungsseite kann also Informationen an die Zielseite weiterleiten. Und dies obwohl bei in verschiedenen Domains liegen. Der Speicherplatz in der Variable kann dabei mehrere hundert KByte große sein.
Privacy-Lücke auch in Tor
Prinzipiell eignet sich das Verfahren damit für die Erkennung und Rekonstruktion von Nutzern insbesondere in anonymisierenden Umgebungen wie etwa Tor oder hinter privoxy. Tatsächlich überschreibt auch der Tor-Browser die Variable nicht, wenn eine neue Seite aufgerufen wird. Ein interessierter Angreifer kann Code auf bestimmte Seiten platzieren und den window.name setzen und auf anderen Seiten diesen wieder auslesen. Dabei muss die Variable nicht permanent gesetzt sein. Es genügt eine Funktion bei “unload” aufzurufen, die gewünschten Informationen in die Variable zu schreiben und beim Aufruf der neuen Seite wieder auszulesen und zu löschen.
Cross-Domain-Angriff möglich
Da in der Variable window.name nicht nur Strings sondern auch Code gespeichert werden kann, lässt sich so prinzipiell auch schadhafter Code auf fremden Seiten einschleusen. Das offensichtlichste Einfallstor sind weit verbreitete JavaScript-Frameworks, die auf das Objekt zugreifen. Wenn darin dann statt des erwarteten Strings Methoden stecken, kann das Framework dazu gebracht werden, diese fremden Funktionen auszuführen.
Ein kompromittiertes Banner zu einer Bankenseite kann dorthin Code deployen und dann unter anderer Domain und sogar https Zugangsdaten und PINs abgreifen oder gar gleich den Empfänger manipulieren.
Tatsächlich wird mit der Technik schon eine Weile rumgespielt. Auf github findet sich zum Beispiel ein jQuery-Plugin, das window.name explizit für Cross-Domain-Messageing verwendet.
Wie in so vielen Fällen schützt auch hier wieder nur JavaScript abzuschalten. Prinzipiell stellt sich aber die Frage, ob der window.name überhaupt noch zeitgemäß ist. Immerhin sind die Zeiten der Framesets und damit die Notwendigkeit der Frame-Namen glücklicherweise vorbei.
#30c3 Rückblick
Viele damit Vertraute versprachen einen epischen 30. Chaos Communication Congress. Und tatsächlich wird der 30c3 wohl in guter Erinnerung bleiben. Mehrmals sah sich das Publikum genötigt den Vortragenden durch Aufstehen ihre besondere Wertschätzung zu bezeugen. Nicht nur Jacob Applebaum und Glenn Greenwald wurden so geehrt sondern auch der bisherige Bundesdatenschutzbeauftragte Peter Schaar. Sein Vortrag empfiehlt sich allen, die mal grundlegend wissen wollen, was dieser Posten eigentlich ist, was er darf und vor allem was er nicht darf. Die Links werden nachgereicht, wenn sie auf den CCC-Servern verfügbar sind.
Die wichtigsten Themen waren natürlich neben den NSA-Enthüllungen auch dieses Jahr wieder unsichere Hard- und Software. Mögliche Angriffe auf SD-Karten mit eigenen CPUs, die Extraktion Schlüsseln aus One Time Pads und die Möglichkeit von Hintertüren in Soft-Core-CPUs wurden dargestellt.
Aus Sicht von WebTracking war auf jeden Fall der Talk über Lücken und versteckte Funktionen in HbbTV-Geräten interessant. Martin Herfurt hat sich die Kommunikation von Smart-TVs über IP angesehen und kam zu einigen interessanten Erkenntnissen. Deutlich wurde, dass bis auf die öffentlich-rechtlichen Fernsehanstalten niemand Anstalten unternimmt, sich um Datenschutz zu kümmern. Die Geräte bieten meistens keine vernünftigen Einstellungsmöglichkeiten bzgl. Cookies oder Cache an und die Sender bieten selten Opt-Out und niemand Opt-Out an. Viele Sender haben Scripte laufen, die regelmässig an die Broadcaster oder die Werbekunden übertragen, dass der Sender noch eingeschaltet ist. Allerdings versprach der Titel des Talks “OMG – my Smart TV got pr0wn3d” eine etwas andere Stossrichtung (aber das kann ja jedem mal passieren …).
Targeted Ads: Twitter wechselt auf die dunkle Seite
Techcrunch meldete gestern, dass “Twitter Is About To Officially Launch Retargeted Ads“. Danach soll noch heute das neue Programm für Werbetreibenden bekannt gegeben werden. Dreh- und Angelpunkt wird dabei offensichtlich der twitter-Account-Cookie des Brwosers. Dieser soll das Surfverhalten eines Nutzers verknüpfen aus dem dann ein aussagefähiges Interessenprofil generiert wird. Auf der Basis dieses Profils kann twitter dann Targeting und auch das teurer zu verkaufende Retargeting
Prinzipiell ist an dieser Entwicklung zunächst mal interessant, dass twitter mit diesem Vorgehen von sehr vielen Sites profitiert, die selbst von diesem Kuchen nichts abbekommen. Jeder Blog und jede News-Site mit einem installierten Social-Plugin, liefert die notwendigen Daten an twitter ohne dafür einen monetären Gegenwert zu bekommen.
Allerdings kommt der Schritt nicht überraschend: die Änderung der Nutzungsbedingungen deuteten schon vor mehr als einem Jahr auf twitters Zukunftspläne. Auch die tiefe Integration der Accounts in iOS und OSX liessen darauf schliessen, dass man in Richtung einer geräteübergreifende Nutzerkennung arbeitet. Dazu passt auch die heute bekannt gegebene Zusammenarbeit von twitter mit der Deutschen Telekom die sich bemühen neue Android-Nutzer durch einen einfacheren Zugang zu gewinnen.
Insbesondere die Identifikation von Nutzern über Gerätegrenzen hinweg ist der heilige Gral. Kann eine Werbeplattform synchrone Profile anbieten sinken die Kosten für Buchung weil weniger Werbungen ausgespielt werden müssen und gleichzeitig steigt die Effizienz der einzelnen geschalteten Werbemittel.
Twitter geht dabei auch gerne Wege, die zum Beispiel in Deutschland gesetzlich verboten sind. So speichert die mobile Version beispielsweise die IP-Adresse des ersten Aufrufs in einem Cookie. Damit lassen sich sehr leicht Profile auch dann erstellen, wenn Nutzer sich auf einzelnen Geräten oder Programmen nicht bei twitter anmeldet.
Eine ausführliche Analyse über den Wert von Nutzerdaten stellt ein Artikel des spectator dar: “iSPY: How the internet buys and sells your secrets“. Laut dem Autoren sammeln die Firmen derzeit jährlich £5,000 von jedem User ein. Jetzt wo twitter einen Firmenwert von 23 Mrd $ hat möchte man den Investoren, die “einem so viel gegeben haben” offensichtlich ein wenig zurückgeben.
Massenüberwachung ist Marktforschung mit anderen Mitteln
Man stelle sich Barack Obama beim morgendlichen Briefing vor. Seine Mitarbeiter präsentieren ihm einen Mix unterschiedlicher Nachrichten. Kurz und knapp zusammengefasst jeweils auf zwei Sätze. Die Themen umfassen das ganze Spektrum mit dem sich ein US-Präsident beschäftigen muss: Gesundheitsreform, Chemiewaffen, Finanzstreit, Republikaner etc. Die Quellen reichen von einfachen Pressclippings über Telefonate zu Meinungsumfragen und eben Überwachung. In den meisten Fällen handelt es sich schon um ein Surrogat aus mehreren Quellen. Den Überbringern dürfte es schwer fallen alle einfliessenden Quellen zu benennen.
Das einzelne Telefonat von X mit Y ist dabei schon längst in den Hintergrund getreten. Vielleicht ist nur die Häufung der Telefonate zwischen X und Y oder die Tatsache, dass die beiden seit Wochen nicht mehr miteinander geredet haben wichtig. Was aber, wenn X und Y nur deswegen nicht mehr telefonieren, weil sie jetzt plötzlich Skype benutzen. Gewichtete Aussagen an Hand von Metadaten lassen sich nur dann gesichert machen, wenn man sicher sein kann, dass man nahezu alle Pakete unter Beobachtung hat.
Lehren aus der Marktforschung
Die Qualität aggregierter Aussagen steht und fällt mit der Quantität der verwendeten Daten. Die “Ich bekomme nur Schuhwerbung”-Beobachtung zeigt dieses Problem auf eine sehr anschauliche Weise. Die Datenbasis aller Predictive-Targeting-Anbieter ist derzeit von minderer Qualität, weil sie quantitativ zu klein ist. Konkret: wenn man diesen Artikel hier liest, erfährt ein Anbieter wie Doubleclick oder nuggad davon nichts (hoffentlich). Für ein umfassendes Profil wäre dies jedoch notwendig. Stattdessen werden die Datenbanken dort gefüttert, wo sich viele Menschen aufhalten. Das eigene Profil wird so gleichgeschaltet mit dem vieler anderer Menschen. Und selbst, wenn man sich niemals Schuhe im Netz kaufen würde – schon gar nicht solche – ist aus Sicht der Aggregatoren eine hohe Wahrscheinlichkeit für einen Treffer gegeben. Denn die Hälfte der Nutzer kaufen sich ja tatsächlich solche Schuhe im Netz.
Für die NSA und andere Dienste folgt daraus, dass es nicht genügt, nur einen Teil der Kommunikation zu erfassen. Die Gefahr droht ja eben nicht von der normalen Masse, sondern von den Rändern der Gesellschaft. Die Nichtschuhkäufer liefern die spannenden Analysen. Und spannende Analysen müssen geliefert werden.
Jeder Publisher einer großen WebSite kann schlecht schlafen, wenn er nicht weiss, wie oft seine Seiten aufgerufen werden. Wie in einem Blindflug veröffentlicht er Inhalte, die Nutzer auf die Seite ziehen sollen. Würde er keine Kenntnis von dem Erfolg oder Misserfolg seiner Bemühungen haben würde sich schnell ein unangenehmes Gefühl einstellen – ähnlich dem körperlichen Unwohlsein in einem schalltoten Raum.
Für den Publisher ist die Lösung recht einfach. Sie heisst Web-Analyse und es gibt sie in unterschiedlichen Ausprägungen und zu unterschiedlichen Preisen. Und interessanterweise ist sie so gestaltet, dass beim Benutzer immer ein Quentchen Unsicherheit über die Aussagen selbst oder deren Qualität bleibt. So erklärt sich auch warum 99% aller relevanten WebSites mit mehr als einer Analytics-Lösung ausgestattet sind.
Für die Quants in den Diensten ist das unangenehme Gefühl der Taubheit wahrscheinlich existenzieller. Wenn sie auf Pakete treffen, deren Inhalt sich ihnen verschliesst müssen sie handeln. Geschützte Kommunikation für die sie keinen Schlüssel haben oder neue Protokolle für die sie keinen Decoder haben darf es nicht geben. Eine blosse Kosten-Nutzen-Analyse wird daher immer darauf hinauslaufen, dass diese Pakete erfasst werden müssen und alles unternommen werden sollte, die Inhalte freizulegen. Methodisch sauber wäre bei dem Beobachtungsgegenstand “Internetkommunikation” nur ein Abgreifen aller Pakete an allen Knotenpunkten.
Strategien gegen Browser-Fingerprinting
Über Browser-Fingerprints wird immer häufiger berichtet und es wird möglicherweise noch viel häufiger eingesetzt. Allerdings ist es nicht so einfach, zu ermitteln, wie weit diese Technik zu Wiedererkennung eines Nutzers respektive dessen Systems wirklich verbreitet ist. Zuletzt gab (die Tochter des Axel Springer Verlages) Zanox zu, Fingerprinting zu verwenden. Die verwendeten Verfahren sind allerdings sehr vielfältig und zielen auf unterschiedliche Eigenschaften der Browser und Systeme. Eine funktionierende Strategie gegen Fingerprinting ist also abhängig von der Erhebungsmethode.
Verwendete Daten
Ausgangspunkt für alle Browser-Fingerprints sind die User Agent Strings. Darüber teilt der Browser bei jedem Request mit, zu welcher Familie er gehört und auf welchem System er läuft. Manche Browser (IExplorer) sind geschwätziger als andere (Safari). Häufig meinen auch PlugIns und Browsererweiterungen, heraus posaunen zu müssen, dass der Nutzer so nett war, die Erweiterung zu installieren. Eine solche Installation kann durchaus auch unbeabsichtigt und sogar unbemerkt vom User stattfinden. Nach wie vor installieren Firmen, wie Adobe, HP oder Oracle – gerne unbemerkt – Browser-PlugIns.
Je länger ein System genutzt und angepasst wird, desto geringer ist die Wahrscheinlichkeit, dass der User Agent String weltweit mehrfach auftaucht. Zanox behauptet zwar, dass die Daten nur wenige Tage verwendbar sind, dies gilt aber nur in Hinblick auf die Tatsache, dass Zanox das Verfahren tatsächlich auch zur Berechnung der Kosten ihrer Kunden verwendet. Effektiv dürften mindestens 2/3 aller Nutzer sicher auch über mehrere Wochen erkennbar sein. Insbesondere in Zusammenhang mit ergänzenden Techniken (z.B. Browser-Update-Informationen) lässt sich eine Historie herstellen.
Neben dem User Agent String werden Informationen über den Browser vor allem mittels JavaScript erfasst. Wichtigste Quelle für Browser-Unterschiede ist das JavaScript-Object navigator und dort besonders die Liste der unterstützten Mime-Types: navigator.mimeTypes. Mit über 100 unterschiedlich sortierten Einträgen in einem typischen Browser liefert diese Liste eine hervorragende Quelle für Differenzen. Mit ein wenig Datenanalyse lässt sich damit selbst ein Nutzer mit verschiedenen Browsern auf dem gleichen Rechner und mit der gleichen IP-Adresse erkennen.
Während die bisher beschriebenen Verfahren darauf basieren, dass der WebServer Daten abfragt, die unabhängig von ihm existieren, verwenden weitergehende Techniken Methoden, die die relevante Information zuvor auf dem Rechner ablegen. Insofern fallen diese Techniken direkt in den Bereich des Cookie-Ersatzes. Basis aller dieser Verfahren ist der Browser-Cache. Eine sehr simple Methode ist die Übermittlung von IDs als Bilder, die dann gecached werden und dem Server beim nächsten Besuch ermöglichen, die ID wiederherzustellen.
Wesentlich verbreiteter ist jedoch die Verwendung von ETags. Dabei handelt es sich um eine ID, die von den WebServern im http-Header an den Browser sendet. Das Protokoll sagt, dass diese ETag-ID bei einem Aufruf an den Server senden kann, falls der Browser das entsprechende Element zuvor bereits geladen hat. Solche ETags wurden mit http Version 1.1 eingeführt und werden von allen aktuellen Browsern unterstützt. Bisher wurden sie jedoch extrem selten verwendet. Sie bedeuten aus Sicht eines Content Management Systems mehr Probleme als Vorteile. Eine gute Demonstration der Funktionsweise findet sich hier.
ETag-basierte Erkennungssysteme sind schwer zu erkennen und funktionieren auch ohne JavaScript oder PlugIns. Besonders für Netzwerke, die Nutzer-Identitäten austauschen bieten sie sich an. Die beteiligten Unternehmen müssen lediglich ein IMG-Tag einbauen. Dieser kann ein Bild von einem unabhängigen Server laden. Der Server überträgt dann den Referer, die IP-Adresse und den User Agent String zusammen mit einer eindeutigen ID an die beteiligten Partner. Verbessert werden solche Daten mitunter durch Verfahren wie dem Post-Hack zur Umgehung einer möglichen Sperre von 3rd-Party-Cookies. Dabei wird das Bild nicht direkt aus der Seite aufgerufen sondern über einen Iframe, dessen URL und damit auch der Referer dann die Informationen aus dem Cookie enthält.
Schutzmöglichkeiten der Nutzer
Die Verknüpfung unterschiedlichster Identifikationsverfahren bedeutet für den Nutzer, dass lediglich einzelne Strategien zur Anonymisierung nicht ausreichen. Gegen ETags wirkt auf jeden Fall das Löschen des Browser-Caches. Gegen die Erkennung der Mimetypes und PlugIns mit Hilfe von JavaScript wirkt das Abschalten von JavaScript. Das regelmässige Löschen von Cookies ist inzwischen ebenfalls verbreitet. Der Privatsphären-Modus schützt nur vor dem dauerhaften Speichern von Cookies und den Einträgen im Local Storage. Gegen das Fingerprinting auf der Basis des User Agent Script gibt es darüber hinaus Browsererweiterungen und Einstellungen (Safari Entwicklermenü). Tools wie Ghostery sind zwar sehr interessant, weil sie zeigen, wer auf einer Seite tatsächlich Daten erheben will, sie schützen jedoch nur vor den allgemein bekannten Firmen. Partnernetze agieren häufig unter dem Radar der Öffentlichkeit und basieren auf Eigenentwicklung oder Lösungen von kleinen IT-Anbietern, die selbst nicht in Erscheinung treten. Das PlugIn für Firefox FireGlovs wird inzwischen nicht mehr verbreitet. Es war tatsächlich nicht in der Lage, den Nutzer vor kombinierten Fingerprint-Verfahren zu schützen. [Update] Gábor Gulyás von Privacy Enhancing Technologies (pet-portal.eu) wies darauf hin, dass FireGlove ein Proof of Concept und nicht für zur generellen Benutzung gedacht war. Er hat unter anderem auch die gut recherchierte und wesentlich tiefer gehende Arbeit “Tracking and Fingerprinting in E-Business: New Storageless Technologies and Countermeasures” mitverfasst.[/Update]
Die effektivste Methode ist eine Kombination aus dem Löschen von Cache und Cookies, der Verwendung eines verbreiteten User Agent Strings und dem Deaktivieren von JavaScript und PlugIns. Für Sites, die eine solche Funktion erzwingen, verwendet man am besten einen separaten Browser. Ausschalten sollte man auch die Wiederherstellung der alten Tabs. Idealerweise schliesst man auch den Browser und löscht alle Daten bevor man in ein anderes Netz wechselt oder per DSL eine neue IP-Nummer bekommt.
Falls es nicht so sehr auf die Geschwindigkeit ankommt und wem die genannten Maßnahmen zu kompliziert sind, dem empfiehlt sich natürlich ein Tor-Browser.
sshuttle – VPN für jedermann
Für MacOS und Linux gibt es ein kleines Tool, dass sich als VPN einsetzen lässt: sshuttle. Ziel des Pakets ist das verschlüsselte Tunneln aller Netzaktivitäten von einem lokalen Rechner (oder Router) zu einem entfernten Server. Dieser kann beispielsweise ein ganz normaler virtueller oder dedicated Server bei einem Hoster der Wahl sein. Im Ergebnis sieht ein an dem Netz lauschender Dritter nur einen verschlüsselten Stream. Um die “Meta”-Daten abzugreifen (http-GET, Referrer, Logins, etc.) müsste erheblich mehr Aufwand getrieben werden, der im Einzelfall gerechtfertigt sein möge, aber für die Massenspreicherung wohl nicht sinnvoll ist.
Insbesondere für den Feldeinsatz in Cafés oder anderen fremden Netzen empfiehlt sich der Einsatz von shuttle. Alle typischen Angriffe, die von Passwort-Sniffing bis zum Cookie-Stealing reichen können damit effektiv unterbunden werden.
Voraussetzung ist ein Server mit ssh-Zugang (Root-Rechte sind dort nicht notwendig) im Netz. Von dem lokalen Rechner bis zu diesem wird der gesamte Netzwerktraffic getunnelt. Im Prinzip kann sshuttle auch auf einem Router installiert werden. Dann würde der gesamte Traffic aller angeschlossenen Devices getunnelt werden. Derzeit scheint es allerdings noch nicht gelungen zu sein, sshuttle auf dem freien OpenWRT zu betreiben. Versuche mit einem BeagleBone Black und einem Raspberry Pi verliefen erfolgreich, wenn auch letzteres zumindest unter Debian zu langsam ist. Beide würden sich als mobile SSH-Router für Windows-Nutzer anbieten.
Unter der Haube von Adblock Plus
Bei Mobilegeeks ist grade ein ausführlicher Artikel über Adblock Plus erschienen. Beleuchtet werden die wirtschaftlichen und personellen Verflechtungen und das intransparente Geschäftsmodell hinter dem freien Angebot. Es scheint sich um einen dicken, schmutzigen Sumpf zu handeln. Laut eigener Aussage des Geschäftsführers Till Faida können sich beispielsweise Investoren freischalten lassen. Zitat aus der Thurgauer Zeitung (Schweiz):
Seit Ende 2011 bieten Sie das Acceptable-Ads-Programm an. Beispielsweise zahlen Suchmaschinen für die Aufnahme in Whitelists? Kann sich jeder Werbetreibende bei Ihnen einkaufen?
Nein – von einigen strategischen Partnern einmal abgesehen, die darum gebeten haben, nicht genannt zu werden.
#PRISM, Big Data und der Überwachungs-industrielle Komplex
Die Aufdeckung der umfassenden Vorratsdatenspeicherung der NSA durch Edward Snowden hat die Öffentlichkeit kalt erwischt und auf einen Schlag sind fast alle Verschwörungstheoretiker rehabilitiert. Interessant an dem gesamten Gegenstand sind mehrere Aspekte, insbesondere, wenn man sich normalerweise mit der Analyse und dem Umgang mit “Big Data” beschäftigt:
“Metadaten”
Im Rahmen von PRISM erfasst die NSA die Verbindungsdaten ohne die Kommunikationsinhalte selbst. Viele Menschen sehen das Programm deswegen erstaunlich entspannt. Dabei übersehen sie jedoch, dass in einem Netzwerk die Verknüpfungen selbst, die eigentlichen Inhaltsträger sind. Aus dem Verbindungsprofil selbst lässt sich ein nahezu vollständiges Persönlichkeitsprofil erstellen. Tagesaktivität, wiederkehrende Verhaltensmuster, Aufmerksamkeitsspanne, Gedächtnisleistung, nahezu alle Aspekte, die einen Menschen von einem anderen unterscheiden und damit seine Identität darstellen, können aus den reinen Verbindungsdaten abgeleitet werden.
Wie viele Nutzerdaten fliessen eigentlich so im Durchschnitt?
Ralf Bendrath bat seine Follower gestern zu später Stunde auf twitter um Hilfe:
Followerpower: How many Bytes of personal data does the average internet user create per day? Good proxy measures also welcome. #EUdataP
Und wie man sehen kann, hatte ich schnell eine Überschlagsrechnung parat. Konnte aber die Folgefrage nicht wirklich beantworten. Wie ermittelt man halbwegs valide, wie viele Seiten ein Nutzer durchschnittlich aufruft? Wirklich zitierbare Zahlen dürften bei einem solchen Thema nur qualitative Umfragen liefern. Die haben dann zwar wenig mit der Realität zu tun aber dahinter steckt wenigstens (hoffentlich) jemand, der sich damit auskennt auf den man mit dem Finger zeigen kann.
Als erste Quelle für quantitative Antworten empfiehlt sich alexa.com. Sie ermitteln die Reichweite (“Wie groß ist der Anteil an allen Nutzern, die eine Site erreicht?”) mit Hilfe von Browser-AddOns. Dieses Verfahren ist jedoch durch eine zunehmende Fragmentierung des Browsermarktes und durch Privacy-PlugIns erheblich geschwächt. Die ermittelten Zahlen sind nur noch als Vergleichswert zu verwenden und nicht absolut.
Eine weitere Quelle sind die Zahlen des Verbandes der deutschen Zeitschriftenverlage, besser bekannt als IVW. Unter pz-online.de findet man (sehr gut versteckt) eine Tabelle mit den Zahlen für Visits und Unique Visitors für fast alle deutschen Online-Angebote die sich über Werbung finanzieren und noch einige mehr. Auch die IVW-Zahlen sind eigentlich nur als Vergleichswerte verwendbar, da die Messmethode, wie bei allen Tracking-Tools überhaupt, verschiedene Fehlerquellen hat (siehe: Fehlerhaftes WebAnalytics: Big Data oder eher Big Fraud?).
Basis für eine Berechnung sind natürlich nur die tatsächlichen Online-Nutzer in Deutschland. Aktiv dürften das derzeit ca. 50 Mio Nutzer sein. In den Zahlen der IVW taucht allerdings jeder Nutzer mit mehreren Geräten auch mehrfach auf. Neben dem Heimrechner haben aber viele auch Zugang auf das Netz über einen Arbeitsplatzrechner. Hinzu kommen Handys und Tablets.
Für die Verteilung solcher Geräte gibt es je nach Auftraggeber sehr unterschiedliche Zahlen. Eine gute Quelle für einen groben Überblick ist Statista. Die meisten Reports sind dort jedoch nur mit einem Premiumaccount möglich.
Aus meiner beruflichen Praxis bei der Analyse von großen Sites, wie mcdonalds.de und verschiedenen großen Zeitungs-Websites gibt es einen ersten Anhaltspunkt für die Frage, wie viele Nutzer über einen Arbeitsplatzrechner surfen. Bei allen Sites zeigt sich ein sehr deutliches Bild in Deutschland: während der Mittagspause wird signifikant weniger gesurft. Im Schnitt sind zu dieser Zeit ein drittel weniger Aufrufe zu bemerken. Bereinigt man die Kurve während der typischen Arbeitszeiten um dieses Drittel bleiben etwa 3/4 der Aufrufe und Nutzer übrig.
Ebenfalls auf Erfahrungswerte muss man bei der Nutzung durch mobile Geräte zurückgreifen. Hier wird deutlich, dass bestimmte Typen von Sites signifikant seltener Aufgerufen werden. Stärker als normalerweise sind News-Sites vertreten. Seltener findet man Firmen-, Shopping- und Special-Interest-Sites. Ausgenommen hier sind Blogs, die durch Social Media promoted werden.
Pi mal Daumen dürften maximal 10% aller Visits von mobilen Geräten kommen. Noch mal ~3% dürften durch Tablets von Nutzern kommen, die auch einen Computer und ein Handy nutzen.
40% der Aufrufe von Zweit-, Dritt- und Viertgeräten
Insgesamt dürften von dem im Februar von der IVW gemeldeten mehr als 1,3 Mrd. Visits in Deutschland rund 60% also ~800 Mio. von echten Individuen sein. Der Rest entsteht durch die mehrfache Zählung der Nutzung auf anderen Geräten. Bezogen auf die rund 50 Mio. Nutzern in Deutschland, die mindestens einmal im Monat online sind, ergeben sich monatlich rund 16 Aufrufe einer IVW-Site durch einen durchschnittlichen Aufruf. Zählt man Arbeitsplatz, Handy und Tablet mit dazu sind es ~26 Aufrufe monatlich.
Bedingt durch die Tatsache, dass nur ein Teil der aufgerufenen Sites tatsächlich bei IVW oder nicht alle (z.B. Unity Internet Media mit web.de und gmx.de) die Zahlen zur Veröffentlichung freigeben, muss man möglichst genau schätzen, wie hoch der Anteil dieser Sites an dem Gesamtvolumen ist.
Auf der Alexa-Liste der deutschen Top-500 liegt Bild.de auf Platz 14, Spiegel-Online auf Platz 18. Platz 1 bis 6 belegen Google (com, de), facebook, Youtube, Amazon und eBay. Hinter diesen Spitzenreitern folgt als nächstes der Block der deutschen Service-Anbieter mit Web.de, GMX und T-Online. Zwischendurch sind unter den Top 20 mit UIMServ und Conduit zwei Vermarkter und mit Gutefrage.de und Wikipedia noch häufig verwendete Nachschlagwerke.
Ginge man von einer 90/10-Regel aus, würden Google und facebook in Deutschland allein bereits 90% der Visits auf sich vereinigen, die allein in dieser Top-20-Liste landen. An Hand der verfügbaren Zahlen von Sites, die bei IVW gelistet sind und zu den übrigen 18 im Alexa-Ranking vorhandenen lässt sich jetzt grob abschätzen, wie groß die verbleibenden 10% sind.
Ob die 90/10-Regel hier anwendbar ist, kann man beispielsweise an den Zahlen einer Nielsen-Untersuchung über die Reichweite von Google, facebook und Youtube verifizieren. Danach erreicht Google eine Reichweite von 85%, fb über 56% und Youtube knapp 50%. Mit Überschneidungen (85% der fb-Nutzer nutzen auch Google, d.h. zu den 85% kommen nochmals ~8%, etc.) ergeben sich daraus sogar über 90%.
In der Alexa-Liste ist die Reihenfolge 14. Bild, 18. Spiegel, 19. Chip und 20. Gutefrage. Bei den IVW-Zahlen sind Chip und Gutefrage zwar vertauscht aber dennoch sehr nah beieinander. Der Unterschied dürfte an der Bündlung weiterer Sites durch Gutefrage an den IVW-Account liegen, welche nicht bei Alexa erfasst werden.
So kommt man zu folgender Rechnung: 576.617.172 Visits (4 Sites IVW) / 4 (∅ 1 Site in Alexa) * 18 (90% #Sites Top-20 Alexa) * 10 (10% Anteil Top-20 Alexa) = ~25 Mrd. Visits monatlich in Deutschland.
Demnach würde nur jeder 20 Visit in Deutschland auf einer Site landen, die von IVW erfasst wird (respektive diese veröffentlicht). Das dürfte aber ein plausibles Ergebnis sein, wenn man sich ansieht, wie oft Google, Youtube und facebook besucht werden und berücksichtigt, dass United Internet nicht reported aber selbst angibt, dass laut Agof (Arbeitsgemeinschaft Online Forschung) eine tägliche Reichweite von über 13% hat (jeder 7,5. deutsche Internetnutzer ruft täglich Web.de oder GMX auf).
~17 Visits pro Tag und pro Nutzer
Daraus ergeben sich bei 50 Mio regelmäßigen Internetnutzern in Deutschland pro Monat etwa 520 Aufrufe von WebSites. Pro Tag sind das durchschnittlich 17 Visits pro Nutzer. Allein schon der Aufruf des Browser und das öffnen eines neuen Browserfensters führt jedoch in den meisten Fällen schon zu einem gezählten Besuch, häufig bei Google oder bei T-Online.
Wichtig hierbei ist es, zu beachten, dass es sich dabei um Visits handelt. D.h. wenn der Nutzer nach einer Pause von 30 Minuten auf einer Seite wieder aktiv wird, wird ein neuer Visit gezählt. Insbesondere in Zeiten von dutzenden geöffneten Tabs genügt es in vielen Fällen einen früher geöffneten Tab nochmals zu aktivieren, damit ein neuer Visit gezählt wird.
Da laut der oben genannten Überschlagsrechnung pro Visit rund 7 KByte Daten als Nutzerprofil übertragen werden, kommt man nach dieser Rechnung auf monatlich etwa 3,6 MByte gesendete Profilingdaten pro deutschem Internetnutzer. Meistens übrigens an amerikanische Unternehmen.
(Disclaimer: Insbesondere die Schätzung des Volumens der Requests während eines Visits ist extrem schwierig. Manche Sites laden mehrere hundert Ressourcen von dutzenden verschiedenen Hosts. Dabei werden mitunter mehrere Redirects auf verschiedene Domains durchgeführt. Ralf Bendrath schlägt daher auch sinnvoller weise vor, eine Untersuchung mit einem Proxy durchzuführen, da nur so valide Daten erfasst werden könnten.)
Datenschutzdebatte: der Ton wird rauher
Der sich selbst als “Pirat in der SPD” titulierende Jan Moenikes bezeichnete gestern die Institutsleiterin an der Wiener Wirtschaftsuniversität Sarah Spiekermann als “intellektuell überfordert”. Vorangegangen war ein Artikel von ihr in der Zeit und eine Replik von dem bekannten Anwalt Nico Härting auf cr-online, dem “Portal zum IT-Recht”.
In dem Zeitartikel hatte Spiekermann die massiven Bemühungen der Lobbyisten, die deutschen und europäischen Datenschutzgesetzte und -verordnungen zu verwässern beschrieben und angeprangert. Der Kragen ist ihr offensichtlich auf der Tagung “Datenschutz im 21. Jahrhundert” geplatzt. Nach ihrem Empfinden sind Hundertschaften von Lobbyisten im Einsatz, die die bestehenden Richtlinien zu Fall zu bringen möchten und ein mehr wirtschaftsfreundliches Datenerfassungs- und verarbeitungsklima schaffen wollen.
An der Zahl der Lobbyisten entfachte sich dann auch die Diskussion der eigentlichen Lobbyisten. Die “Wiener Forscherin” würde maßlos übertreiben. Aber auch Ralf Bendrath bestätitgte die Hundertschaften, zumindest für Brüssel, wo momentan tatsächlich die eigentliche Diskussion stattfindet.
Der Argumentationsdruck auf Politik und Medien wird erhöht
Die Kritiker von Spiekermann muss man sich genauer ansehen. Denn der übelmeinende Beobachter könnte denken, sie agierten unter falscher Flagge. Und offensichtlich scheinen sie dabei recht erfolgreich. Nico Härting ist von der Kanzlei “Härting Rechtsanwälte” laut Homepage bekannt “vor allem aus dem Medien- und Internetrecht”. Die Seite bietet beispielsweise den netten Service von Vertragsvorlagen rund um das digitale Business.
Der ebenfalls als Anwalt tätige “Pirat in der SPD” Jan Mönickes ist häufig in Funk und Fernsehen zu Gast. Kürzlich hat er beispielsweise auf dem Ostdeutschen Journalistentag einen Vortrag mit dem Titel “Vorratsdatenspeicherung – ein notwendiges Übel” gehalten. Ein echtes rhetorisches Meisterstück. Denn er hangelt sich in wenigen Sätzen von der verständlichen Hoffnung der Ermittler auf Überwachungstechniken, über die Sorgen vor totaler Überwachung, zu nicht näher benannten versteckten Absichten der Kritiker dieser Techniken. Dass Mönickes ein etwas anderes Verständnis von Datenschutz hat als die bekannten Datenschützer sieht man schon an der Verwendung von Begriffen und Interpunktion. So spricht er von der “sog. Vorratsdatenspeicherung” und von “absolutem ‘Recht auf Anonymität’”.
Einem themenfremden Journalisten dürfte es nach einem solchen Briefing schwerer fallen, jemanden wie Peter Schaar ernst zu nehmen.
Spannender jedoch ist Härting und seine Kanzlei. In Zusammenarbeit mit SSW (Schneider Schiffer Weihermüller) beschäftigen sie sich hier mit den aktuellen und zukünftigen Datenschutzgesetzen. Dort findet sich zum Beispiel seit August 2012 ein “Alternativentwurf” der Datenschutz-Grundverordnung (zu finden unter schneider-haerting,de).
Kern dieses Alternativentwurfs ist letztlich die Abschaffung des “Verbot mit Erlaubnisvorbehalt”, der Basis des deutschen und europäischen Datenschutzes. Den “Alternativentwurf” sollte sich jeder mal durchlesen. Er zeigt nicht nur wohin die Reise gehen soll, sondern macht auch deutlich, woher die ganzen schlecht ausgearbeiteten Gesetze kommen. Es ist unlogisch, fehlerhaft strukturiert und wichtige Punkte werden vollkommen aussen vor gelassen.