qrios

IT ist kurios!

Archive for the ‘analytics’ Category

Machine Learning in der Web-Analyse

with 2 comments

Die meisten Nutzer von Web-Analytics-Lösungen sind früher oder später vom Output ihrer Tools desillusioniert. Oft wegen der Zahlen selbst, aber häufiger ob der (geringen) Aussagefähigkeit der Kurven, Torten und Tabellen. Die versprochenen “Insights” verstecken sich in einem Wust banaler, irrelevanter und teils absurder Aussagen. Was wäre, wenn ein Automat die wichtigen von den unwichtigen Bezügen trennen könnte? Wäre Artificial Intelligence also Machine Learning dazu in der Lage?

Zu viele Fragestellungen an Web-Analyse-Tools

Die meisten Lösungen für Web-Analytics decken ein zu großes Zielpublikum ab. Marketingabteilung, HR, Vertrieb und Support stellen meistens sehr unterschiedliche Fragen an die Tools. Bei vielen Kunden wird dann nur ein geringer Teil des tatsächlich Möglichen implementiert und alle Abteilungen erhalten wesentlich weniger “Insights” als ursprünglich erwartet.

Für alle Abteilungen einer mittelständischen Firma könnte eine wichtige Fragestellung an ein Web-Analyse sein: Wie viele Besucher, die auf der Suche nach einer spezifischen Information (z.B. Stellenanzeige, Produktdokumentation oder Ansprechpartner) sind, finden diese Information nicht. Eine klassische Lösung kann diese Frage nicht beantworten. Der Nutzer müsste sich komplexe Filter zusammenbauen und würde dennoch nur eine Teilantwort erhalten. Mit Hilfe von Machine Learning wäre diese Frage beantwortbar.

Konfiguration eines Netzes

Im Gegensatz zu typischen Anwendungen wie beispielsweise Bild- oder Spracherkennung stellt sich bei der Web-Analyse eine besondere Hürde für die Verwendung eines neuronalen Netzes: die Anzahl der Parameter für den Input ist im Prinzip unbegrenzt. Zu einer User-Session gehören grundsätzlich neben den aufgerufenen Seiten und dem Referrer alle Eigenschaften des Netzes wie des Browsers.

Diese Parameter sind jedoch variabel. D.h. dass beispielsweise Referrer sich im Laufe sehr kurzer Zeit verändern, ebenso wie die User-Agent-Strings oder die (möglicherweise anonymisierte) IP. Einige dieser Parameter komplett zu ignorieren würde jedoch viele mögliche Aussagen (z.B. “Stellensuche funktioniert nicht mit Safari”) im Vorfeld ausschliessen.

Der Umgang mit den Parametern – das Encoding – bestimmt die Art und vor allem Größe des verwendeten Netzes. In den Daten gibt es grundsätzlich zwei verschiedene Arten von Daten. Fast alle Daten lassen sich in der Form key=value aufbereiten. Dabei lassen sich alle Values gruppieren (z.B. Browser=Safari|Firefox|Chrome…). Im Prinzip sind damit auch die Timestamps modellierbar.

Ausgehend vom ImageNet erschien allerdings ein anderer Ansatz zielführender. Betrachtet man die für das Training verwendeten Bilder, so enthalten sie natürlich zuerst die Bilddaten selbst. Darüber hinaus ist jedes Bild jedoch auch mit Metadaten qualifiziert. D.h. wenn auf einem Bild eine Axt zu sehen ist, dann enthält die Beschreibung diese Information zusammen mit den Koordinaten.

imagenet-browser

Der ImageNet (2011) Browser für die Beispielbilder (Quelle: http://imagenet.stanford.edu/synset?wnid=n02764044 )

mehr…

Written by qrios

April 11th, 2016 at 11:34 am

Posted in analytics,science

Rapide sinkende Nutzung deutscher Nachrichtenseiten

with 3 comments

Im Rahmen eines aktuellen Projektes untersuche ich derzeit die Nutzerzahlen verschiedener deutscher Themenportale. Dabei fiel eine kongruente Entwicklung der Zahlen für die großen News-Sites in Deutschland auf. Seit etwa der zweiten Septemberwoche befinden sich die Zahlen in einem rapiden Fall. Basis der Daten ist das Panelsystem Alexa. Sie werden erhoben mit Hilfe von Browser-Plugins. Vertriebsweg für die Plugins sind Browserbundles auf vorinstallierten Systemen oder von Download-Sites.

Die normalisierten Rankings der wichtigsten deutschen Nachrichtenseiten.

Die normalisierten Rankings (global; höher = größere Reichweite) der wichtigsten deutschen Nachrichtenseiten. Seit der zweiten Septemberhälfte bewegt sich die Nutzung aller Angebote in Richtung Jahrestiefstand. (Quelle: alexa.com)

In dem Chart wurden die Alexa-Rankingverläufe (Global) der Seiten spiegel.de, welt.de, faz.net, sz.de, bild.de, focus.de und tagesschau.de übereinander gelegt und auf den gleichen Wert zu Beginn der Zeitskala gelegt. Obwohl die Zahlen schnell auseinander laufen kann man deutlich mehrere Phasen sehen in denen die Entwicklungen kongruent verlaufen. Im Februar beispielsweise steigen die Rankings für alle Seiten vergleichbar an. Ein ähnlicher Anstieg ist für fast alle Seiten ab Juni zu bemerken. Einzige Ausnahme ist hier die tagesschau.de. Offensichtlich war die tagesschau für viele Fussballinteressierte während der Weltmeisterschaft nicht die wichtigste Informationsquelle.

Der signifikante Einbruch ab Mitte September ist normalerweise bei Alexa nicht zu sehen. Wenn er doch mal bei einzelnen Seiten zu finden ist, liegt es meistens an Relaunches oder technischen Problemen und findet sich dann auch in den Alexa-Zahlen für den Anteil der Sucheingänge.

Die untersuchten Seiten vereinen den größten Teil der aktiv aufgerufenen Newsseiten in Deutschland. Andere News-Sites wie T-Online oder Yahoo-News muss man separat betrachten, weil diese Seiten von Systemanbietern (PC-Hersteller oder Provider) als Startseiten eingetragen werden.

Mögliche Ursachen

Eine naheliegende Erklärung könnte eine Änderung der Google-Listings als Folge des Leistungsschutzrechts sein. Allerdings hat Google diesbezüglich noch nichts unternommen. Erst vor einer Woche wurde angekündigt, dass man zukünftig die Snippets eindampfen wird.

Sehr viel wahrscheinlicher dürfte sowohl die Art der Berichterstattung über politische Ereignisse als auch der Umgang mit den Kommentatoren sein. Vielen Redaktionen wird immer öfter eine einseitige Berichterstattung bis hin zur Kriegstreiberei vorgeworfen. Diese Vorwürfe finden sich auch häufig in den Kommentaren. Die Reaktion der Publisher auf diese Kommentare kann man eigentlich nur als Wagenburgmentalität bezeichnen. Oft werden viele Kommentare gesperrt, die Accounts von Kommentatoren werden deaktiviert oder die Kommentarfunktion für einzelne Artikel wird ganz deaktiviert.

Zu dem drastischsten Schritt sah sich offenbar die Süddeutsche veranlasst. Sie lässt jetzt nur noch Kommentare zu wenigen ausgewählten Artikeln zu und hat diese Funktion auch noch ausgelagert. Für die SZ begann der Abstieg übrigens am 1. September – der Tag an dem die neue “Kommentarfunktion” online geschaltet wurde

(Zum Vergleich noch die Rankings von T-Online und AOL. Beide Seiten sind sehr häufig als Browser-Startseiten eingerichtet. Daher kann man aus ihnen ungefähr abschätzen, wie die allgemeine Nutzung des Netzes in Deutschland ist. Betrachtet man den fraglichen Zeitraum gibt es keinen Hinweis, dass die Nutzung generell rückläufig wäre.)

Die Rankings von t-online.de und aol.de als Indikator für die allgemeine Nutzung des Netzes in Deutschland.

Die Rankings (höher = größere Reichweite) von t-online.de und aol.de als Indikator für die allgemeine Nutzung des Netzes in Deutschland.

 

Written by qrios

October 9th, 2014 at 1:33 pm

Posted in analytics

Domain-übergreifende Hilfs-Cookies mit “window.name”

without comments

Die aktuelle Diskussion über Canvas-Fingerprints hat wieder gezeigt, dass sowohl Browser als auch HTML und JavaScript viele Einfallstore für Datensammler bieten. Viele Funktionen, die den Nutzern eigentlich den Umgang mit dem Web erleichtern sollen stellen sich früher oder später als Privacy-Lücke heraus (z.B. kann das Caching für einen ausgezeichneten Cookie-Ersatz verwendet werden).

Für Datensammler stellt sich jedoch immer auch das Problem der Domaingrenze. D.h. die Browser verhindern inzwischen den Zugriff auf Informationen oder Funktionen, die von einer anderen Domain im Browser angelegt wurden.

“window.name” funktioniert Domain-übergreifend

Allerdings gibt es mit dem Objekt window.name einen Store für beliebige Inhalte, die von einer Domain zur nächsten übermittelt werden können. Ein einfacher Test in der Browserconsole zeigt, wie es funktioniert:


> window.name
< ""
> window.name = "id"
< "id"

Ruft man nun in der aktuellen Seite einen Link auf, der auf eine andere Domain verweist und fragt wiederum window.name ab erhält man weiterhin “id”:


> window.name
< "id"

Die Ursprungsseite kann also Informationen an die Zielseite weiterleiten. Und dies obwohl bei in verschiedenen Domains liegen. Der Speicherplatz in der Variable kann dabei mehrere hundert KByte große sein.

Privacy-Lücke auch in Tor

Prinzipiell eignet sich das Verfahren damit für die Erkennung und Rekonstruktion von Nutzern insbesondere in anonymisierenden Umgebungen wie etwa Tor oder hinter privoxy. Tatsächlich überschreibt auch der Tor-Browser die Variable nicht, wenn eine neue Seite aufgerufen wird. Ein interessierter Angreifer kann Code auf bestimmte Seiten platzieren und den window.name setzen und auf anderen Seiten diesen wieder auslesen. Dabei muss die Variable nicht permanent gesetzt sein. Es genügt eine Funktion bei “unload” aufzurufen, die gewünschten Informationen in die Variable zu schreiben und beim Aufruf der neuen Seite wieder auszulesen und zu löschen.

Cross-Domain-Angriff möglich

Da in der Variable window.name nicht nur Strings sondern auch Code gespeichert werden kann, lässt sich so prinzipiell auch schadhafter Code auf fremden Seiten einschleusen. Das offensichtlichste Einfallstor sind weit verbreitete JavaScript-Frameworks, die auf das Objekt zugreifen. Wenn darin dann statt des erwarteten Strings Methoden stecken, kann das Framework dazu gebracht werden, diese fremden Funktionen auszuführen.

Ein kompromittiertes Banner zu einer Bankenseite kann dorthin Code deployen und dann unter anderer Domain und sogar https Zugangsdaten und PINs abgreifen oder gar gleich den Empfänger manipulieren.

Tatsächlich wird mit der Technik schon eine Weile rumgespielt. Auf github findet sich zum Beispiel ein jQuery-Plugin, das window.name explizit für Cross-Domain-Messageing verwendet.

Wie in so vielen Fällen schützt auch hier wieder nur JavaScript abzuschalten. Prinzipiell stellt sich aber die Frage, ob der window.name überhaupt noch zeitgemäß ist. Immerhin sind die Zeiten der Framesets und damit die Notwendigkeit der Frame-Namen glücklicherweise vorbei.

Written by qrios

July 25th, 2014 at 3:17 pm

Posted in analytics,privacy,web

#30c3 Rückblick

with 2 comments

Viele damit Vertraute versprachen einen epischen 30. Chaos Communication Congress. Und tatsächlich wird der 30c3 wohl in guter Erinnerung bleiben. Mehrmals sah sich das Publikum genötigt den Vortragenden durch Aufstehen ihre besondere Wertschätzung zu bezeugen. Nicht nur Jacob Applebaum und Glenn Greenwald wurden so geehrt sondern auch der bisherige Bundesdatenschutzbeauftragte Peter Schaar. Sein Vortrag empfiehlt sich allen, die mal grundlegend wissen wollen, was dieser Posten eigentlich ist, was er darf und vor allem was er nicht darf. Die Links werden nachgereicht, wenn sie auf den CCC-Servern verfügbar sind.

Die wichtigsten Themen waren natürlich neben den NSA-Enthüllungen auch dieses Jahr wieder unsichere Hard- und Software. Mögliche Angriffe auf SD-Karten mit eigenen CPUs, die Extraktion Schlüsseln aus One Time Pads und die Möglichkeit von Hintertüren in Soft-Core-CPUs wurden dargestellt.

Aus Sicht von WebTracking war auf jeden Fall der Talk über Lücken und versteckte Funktionen in HbbTV-Geräten interessant. Martin Herfurt hat sich die Kommunikation von Smart-TVs über IP angesehen und kam zu einigen interessanten Erkenntnissen. Deutlich wurde, dass bis auf die öffentlich-rechtlichen Fernsehanstalten niemand Anstalten unternimmt, sich um Datenschutz zu kümmern. Die Geräte bieten meistens keine vernünftigen Einstellungsmöglichkeiten bzgl. Cookies oder Cache an und die Sender bieten selten Opt-Out und niemand Opt-Out an. Viele Sender haben Scripte laufen, die regelmässig an die Broadcaster oder die Werbekunden übertragen, dass der Sender noch eingeschaltet ist. Allerdings versprach der Titel des Talks “OMG – my Smart TV got pr0wn3d” eine etwas andere Stossrichtung (aber das kann ja jedem mal passieren …).

Written by qrios

January 2nd, 2014 at 11:40 am

Posted in analytics,privacy

“Einschaltquoten” von Online-Video-Angeboten

without comments

Die Messung der deutschen TV-Einschaltquoten ist aus Sicht eines halbwegs statistisch gebildeten Betrachters extrem fragwürdig. Wenige tausend Haushalte werden mit speziellen Geräten ausgestattet, die Teilnehmer werden geschult im Umgang mit Fernbedienungen (was übrigens die exorbitante Nutzung von Videotext erklärt) und am Ende des Jahres erhalten sie Kaffeemaschinen als Belohnung. Das Verfahren dient aber auch nur der Vergleichbarkeit der Quoten untereinander. Es bestimmt letztlich den Mediamix und damit wie viel Geld die Häuser ARD/ZDF, ProSieben und RTL bekommen.

Blind ist die GFK-Methode schon immer gegenüber der Mediennutzung abseits von TV und Radio. Man weiß aus Untersuchungen und vor allem aus eigener Erfahrung, dass der Trend weg vom programmgesteuerten Berieseln hin zur aktiven Bestimmung der Inhalte geht. Komplette Serienstaffeln werden an einem Stück angeschaut, Filme werden im Store geliehen oder gekauft oder gleich aus der Piratenbucht befreit. Aber wie hoch ist der Anteil der Nutzer, die ihren Medienkonsum selbst bestimmen?

Analyse

Das DE-CIX veröffentlicht ab und zu Charts über den Traffic auf den deutschen Internetknoten. Danach fliessen zu Spitzenzeiten über 2,5 Terabit durch die Leitungen. Interessant an dieser Zahl ist jedoch nicht der Wert selbst, sondern, wann er typischerweise stattfindet: zwischen 19:00 und 22:00 Uhr, zur besten Sendezeit.

Am gleichen Tag (3.11.2013) zur typischen Mittagspause in Deutschland lag der Wert ein Viertel niedriger. Ein solcher Verlauf ist auch in den anderen Charts des DE-CIX zu sehen. Der abendliche Peak ist jedoch nicht in den Zugriffszahlen eines durchschnittlichen deutschen Portals zu sehen. Manche Angebote schaffen es, zum Abend die Spitzenzahlen vom Mittag oder Nachmittag marginal zu übertreffen. Im Normalfall fällt die Kurve nach dem Kaffee-Peak gg. 15-16 Uhr langsam ab um dann spätestens zum Beginn des Hauptfilms stärker abzusacken.

Zur besten (TV-)Sendezeit steigt auch der Internettraffic ohne, dass die deutschen Portale davon etwas abbekommen.

Zur besten (TV-)Sendezeit steigt auch der Internettraffic ohne, dass die deutschen Portale davon etwas abbekommen.

Zur Hochzeit (am 3.11. wurden die Uhren zurückgestellt) um 19:30 fliessen etwa ein Drittel mehr Daten durch die deutschen Netze, die nicht von den großen deutschen Angeboten kommen. Es liegt nahe, die Nutzung von Youtube, Youporn und Serienportalen dafür verantwortlich zu machen. Denn weder Whatsup noch Email oder Facebook können bei intensivster Nutzung signifikante Bandbreite verbrauchen.

Ausgehend von einem Terabit kann man grob schätzen, wie viele Menschen, grade nicht vor dem Fernseher sitzen, sondern sich ein Video im Netz ansehen. Im Durchschnitt dürfte die Übertragungsrate eines Videos bei unter 500 kbit/sec liegen. In diese Schätzung fliesst sowohl die Tatsache ein, dass das Angebot von HD-Videos nach wie vor gering ist (insbesondre bei Serienportalen) und dass immer wieder Pausen entstehen, weil der Nutzer sich ein anderes Video sucht oder die Leitung stockt. Aus dieser Schätzung ergibt sich eine Zahl von etwa 2 Mio gleichzeitigen Streams zu Spitzenzeit.

Verglichen mit der Einschaltquote (Quelle GFK) des Tatorts am 3.11. von über 10 Mio Zuschauern sind 2 Mio Nutzer sicher noch nicht lebensbedrohlich. Insgesamt hat das deutsche Fernsehen an diesem Abend wenig mehr als 30 Mio Menschen erreicht. Über zwei Millionen wenden sich jedoch Abend für Abend vom Fernseher ab und lieber dem Netz zu. Und dabei handelt es sich sicherlich eher um interessante Zielgruppen für die Werbetreibenden.

Written by qrios

November 15th, 2013 at 1:06 pm

Posted in analytics,web

Massenüberwachung ist Marktforschung mit anderen Mitteln

without comments

Man stelle sich Barack Obama beim morgendlichen Briefing vor. Seine Mitarbeiter präsentieren ihm einen Mix unterschiedlicher Nachrichten. Kurz und knapp zusammengefasst jeweils auf zwei Sätze. Die Themen umfassen das ganze Spektrum mit dem sich ein US-Präsident beschäftigen muss: Gesundheitsreform, Chemiewaffen, Finanzstreit, Republikaner etc. Die Quellen reichen von einfachen Pressclippings über Telefonate zu Meinungsumfragen und eben Überwachung. In den meisten Fällen handelt es sich schon um ein Surrogat aus mehreren Quellen. Den Überbringern dürfte es schwer fallen alle einfliessenden Quellen zu benennen.

Das einzelne Telefonat von X mit Y ist dabei schon längst in den Hintergrund getreten. Vielleicht ist nur die Häufung der Telefonate zwischen X und Y oder die Tatsache, dass die beiden seit Wochen nicht mehr miteinander geredet haben wichtig. Was aber, wenn X und Y nur deswegen nicht mehr telefonieren, weil sie jetzt plötzlich Skype benutzen. Gewichtete Aussagen an Hand von Metadaten lassen sich nur dann gesichert machen, wenn man sicher sein kann, dass man nahezu alle Pakete unter Beobachtung hat.

Lehren aus der Marktforschung

Die Qualität aggregierter Aussagen steht und fällt mit der Quantität der verwendeten Daten. Die “Ich bekomme nur Schuhwerbung”-Beobachtung zeigt dieses Problem auf eine sehr anschauliche Weise. Die Datenbasis aller Predictive-Targeting-Anbieter ist derzeit von minderer Qualität, weil sie quantitativ zu klein ist. Konkret: wenn man diesen Artikel hier liest, erfährt ein Anbieter wie Doubleclick oder nuggad davon nichts (hoffentlich). Für ein umfassendes Profil wäre dies jedoch notwendig. Stattdessen werden die Datenbanken dort gefüttert, wo sich viele Menschen aufhalten. Das eigene Profil wird so gleichgeschaltet mit dem vieler anderer Menschen. Und selbst, wenn man sich niemals Schuhe im Netz kaufen würde – schon gar nicht solche – ist aus Sicht der Aggregatoren eine hohe Wahrscheinlichkeit für einen Treffer gegeben. Denn die Hälfte der Nutzer kaufen sich ja tatsächlich solche Schuhe im Netz.

Für die NSA und andere Dienste folgt daraus, dass es nicht genügt, nur einen Teil der Kommunikation zu erfassen. Die Gefahr droht ja eben nicht von der normalen Masse, sondern von den Rändern der Gesellschaft. Die Nichtschuhkäufer liefern die spannenden Analysen. Und spannende Analysen müssen geliefert werden.

Jeder Publisher einer großen WebSite kann schlecht schlafen, wenn er nicht weiss, wie oft seine Seiten aufgerufen werden. Wie in einem Blindflug veröffentlicht er Inhalte, die Nutzer auf die Seite ziehen sollen. Würde er keine Kenntnis von dem Erfolg oder Misserfolg seiner Bemühungen haben würde sich schnell ein unangenehmes Gefühl einstellen – ähnlich dem körperlichen Unwohlsein in einem schalltoten Raum.

Für den Publisher ist die Lösung recht einfach. Sie heisst Web-Analyse und es gibt sie in unterschiedlichen Ausprägungen und zu unterschiedlichen Preisen. Und interessanterweise ist sie so gestaltet, dass beim Benutzer immer ein Quentchen Unsicherheit über die Aussagen selbst oder deren Qualität bleibt. So erklärt sich auch warum 99% aller relevanten WebSites mit mehr als einer Analytics-Lösung ausgestattet sind.

Für die Quants in den Diensten ist das unangenehme Gefühl der Taubheit wahrscheinlich existenzieller. Wenn sie auf Pakete treffen, deren Inhalt sich ihnen verschliesst müssen sie handeln. Geschützte Kommunikation für die sie keinen Schlüssel haben oder neue Protokolle für die sie keinen Decoder haben darf es nicht geben. Eine blosse Kosten-Nutzen-Analyse wird daher immer darauf hinauslaufen, dass diese Pakete erfasst werden müssen und alles unternommen werden sollte, die Inhalte freizulegen. Methodisch sauber wäre bei dem Beobachtungsgegenstand “Internetkommunikation” nur ein Abgreifen aller Pakete an allen Knotenpunkten.

 

 

Written by qrios

November 1st, 2013 at 12:44 pm

Strategien gegen Browser-Fingerprinting

with 5 comments

Über Browser-Fingerprints wird immer häufiger berichtet und es wird möglicherweise noch viel häufiger eingesetzt. Allerdings ist es nicht so einfach, zu ermitteln, wie weit diese Technik zu Wiedererkennung eines Nutzers respektive dessen Systems wirklich verbreitet ist. Zuletzt gab (die Tochter des Axel Springer Verlages) Zanox zu, Fingerprinting zu verwenden. Die verwendeten Verfahren sind allerdings sehr vielfältig und zielen auf unterschiedliche Eigenschaften der Browser und Systeme. Eine funktionierende Strategie gegen Fingerprinting ist also abhängig von der Erhebungsmethode.

Verwendete Daten

Ausgangspunkt für alle Browser-Fingerprints sind die User Agent Strings. Darüber teilt der Browser bei jedem Request mit, zu welcher Familie er gehört und auf welchem System er läuft. Manche Browser (IExplorer) sind geschwätziger als andere (Safari). Häufig meinen auch PlugIns und Browsererweiterungen, heraus posaunen zu müssen, dass der Nutzer so nett war, die Erweiterung zu installieren. Eine solche Installation kann durchaus auch unbeabsichtigt und sogar unbemerkt vom User stattfinden. Nach wie vor installieren Firmen, wie Adobe, HP oder Oracle – gerne unbemerkt – Browser-PlugIns.

Je länger ein System genutzt und angepasst wird, desto geringer ist die Wahrscheinlichkeit, dass der User Agent String weltweit mehrfach auftaucht. Zanox behauptet zwar, dass die Daten nur wenige Tage verwendbar sind, dies gilt aber nur in Hinblick auf die Tatsache, dass Zanox das Verfahren tatsächlich auch zur Berechnung der Kosten ihrer Kunden verwendet. Effektiv dürften mindestens 2/3 aller Nutzer sicher auch über mehrere Wochen erkennbar sein. Insbesondere in Zusammenhang mit ergänzenden Techniken (z.B. Browser-Update-Informationen) lässt sich eine Historie herstellen.

Neben dem User Agent String werden Informationen über den Browser vor allem mittels JavaScript erfasst. Wichtigste Quelle für Browser-Unterschiede ist das JavaScript-Object navigator und dort besonders die Liste der unterstützten Mime-Types: navigator.mimeTypes. Mit über 100 unterschiedlich sortierten Einträgen in einem typischen Browser liefert diese Liste eine hervorragende Quelle für Differenzen. Mit ein wenig Datenanalyse lässt sich damit selbst ein Nutzer mit verschiedenen Browsern auf dem gleichen Rechner und mit der gleichen IP-Adresse erkennen.

Während die bisher beschriebenen Verfahren darauf basieren, dass der WebServer Daten abfragt, die unabhängig von ihm existieren, verwenden weitergehende Techniken Methoden, die die relevante Information zuvor auf dem Rechner ablegen. Insofern fallen diese Techniken direkt in den Bereich des Cookie-Ersatzes. Basis aller dieser Verfahren ist der Browser-Cache. Eine sehr simple Methode ist die Übermittlung von IDs als Bilder, die dann gecached werden und dem Server beim nächsten Besuch ermöglichen, die ID wiederherzustellen.

Wesentlich verbreiteter ist jedoch die Verwendung von ETags. Dabei handelt es sich um eine ID, die von den WebServern im http-Header an den Browser sendet. Das Protokoll sagt, dass diese ETag-ID bei einem Aufruf an den Server senden kann, falls der Browser das entsprechende Element zuvor bereits geladen hat. Solche ETags wurden mit http Version 1.1 eingeführt und werden von allen aktuellen Browsern unterstützt. Bisher wurden sie jedoch extrem selten verwendet. Sie bedeuten aus Sicht eines Content Management Systems mehr Probleme als Vorteile. Eine gute Demonstration der Funktionsweise findet sich hier.

ETag-basierte Erkennungssysteme sind schwer zu erkennen und funktionieren auch ohne JavaScript oder PlugIns. Besonders für Netzwerke, die Nutzer-Identitäten austauschen bieten sie sich an. Die beteiligten Unternehmen müssen lediglich ein IMG-Tag einbauen. Dieser kann ein Bild von einem unabhängigen Server laden. Der Server überträgt dann den Referer, die IP-Adresse und den User Agent String zusammen mit einer eindeutigen ID an die beteiligten Partner. Verbessert werden solche Daten mitunter durch Verfahren wie dem Post-Hack zur Umgehung einer möglichen Sperre von 3rd-Party-Cookies. Dabei wird das Bild nicht direkt aus der Seite aufgerufen sondern über einen Iframe, dessen URL und damit auch der Referer dann die Informationen aus dem Cookie enthält.

Schutzmöglichkeiten der Nutzer

Die Verknüpfung unterschiedlichster Identifikationsverfahren bedeutet für den Nutzer, dass lediglich einzelne Strategien zur Anonymisierung nicht ausreichen. Gegen ETags wirkt auf jeden Fall das Löschen des Browser-Caches. Gegen die Erkennung der Mimetypes und PlugIns mit Hilfe von JavaScript wirkt das Abschalten von JavaScript. Das regelmässige Löschen von Cookies ist inzwischen ebenfalls verbreitet. Der Privatsphären-Modus schützt nur vor dem dauerhaften Speichern von Cookies und den Einträgen im Local Storage. Gegen das Fingerprinting auf der Basis des User Agent Script gibt es darüber hinaus Browsererweiterungen und Einstellungen (Safari Entwicklermenü). Tools wie Ghostery sind zwar sehr interessant, weil sie zeigen, wer auf einer Seite tatsächlich Daten erheben will, sie schützen jedoch nur vor den allgemein bekannten Firmen. Partnernetze agieren häufig unter dem Radar der Öffentlichkeit und basieren auf Eigenentwicklung oder Lösungen von kleinen IT-Anbietern, die selbst nicht in Erscheinung treten. Das PlugIn für Firefox FireGlovs wird inzwischen nicht mehr verbreitet. Es war tatsächlich nicht in der Lage, den Nutzer vor kombinierten Fingerprint-Verfahren zu schützen. [Update] Gábor Gulyás von Privacy Enhancing Technologies (pet-portal.eu) wies darauf hin, dass FireGlove ein Proof of Concept und nicht für zur generellen Benutzung gedacht war. Er hat unter anderem auch die gut recherchierte und wesentlich tiefer gehende Arbeit “Tracking and Fingerprinting in E-Business: New Storageless Technologies and Countermeasures” mitverfasst.[/Update]

Die effektivste Methode ist eine Kombination aus dem Löschen von Cache und Cookies, der Verwendung eines verbreiteten User Agent Strings und dem Deaktivieren von JavaScript und PlugIns. Für Sites, die eine solche Funktion erzwingen, verwendet man am besten einen separaten Browser. Ausschalten sollte man auch die Wiederherstellung der alten Tabs. Idealerweise schliesst man auch den Browser und löscht alle Daten bevor man in ein anderes Netz wechselt oder per DSL eine neue IP-Nummer bekommt.

Falls es nicht so sehr auf die Geschwindigkeit ankommt und wem die genannten Maßnahmen zu kompliziert sind, dem empfiehlt sich natürlich ein Tor-Browser.

Written by qrios

October 2nd, 2013 at 2:42 pm

Posted in analytics,privacy,web

Mozilla löst kein Probleme, es wird selbst zu einem

with 2 comments

Quelle: http://en.wikipedia.org/wiki/File:Paris_Tuileries_Garden_Facepalm_statue.jpg

Quelle: en.wikipedia.org
cc-by-2.0

Mozilla schlägt vor, Profiling direkt im Browser einzubauen. Profiling ist die Basis für Targeting und ist ein wesentliches Feature gehobener WebAnalytics-Lösungen. Profiling ist der Kern des Geschäftes von Firmen wie nugg.ad, Wunderloop (ehemals 7d) und früher schon Yoolia. Ziel ist es, aus dem historischen Verlauf vieler/aller aufgerufenen Seiten, die Affinität zu bestimmten Themen oder Themengruppen zu ermitteln. Auf der Basis dieser Daten kann dann Werbung gezielter positioniert werden.

Mit Profiling soll das Ford’sche Dilemma gelöst werden. Henry Ford wird der Ausspruch zugeschrieben, dass er zwar wisse, dass die Hälfte der Marketingkosten zum Fenster rausgeschmissen sei, aber nicht welche Hälfte. Mit Hilfe von Profiling würde man nur noch die ansprechen, die auch tatsächlich potentielle Kunden sind.

In der klassischen Werbung gibt es einen solchen direkten Rückkanal nicht. Die Werbewirksamkeitsforschung muss sich auf krude Verfahren, wie Panelgruppen (GFK, agof) und Massenzählungen (IVW, Radioreichweite) stützen. Diese werden dann mit obskuren Sinus-Gruppen verknüpft und daraufhin wirbt dann “o.b.” bei Tele5 im täglichen Star-Trek-Slot.

Auf dem Mozilla-Blog hat der Product Manager Justin Scott nun ein System vorgeschlagen, dass es zukünftigen Firefox-Versionen ermöglichen würde, selbst ein Profil zu erstellen. Dieses soll dann (offensichtlich) anonym an den Serverbetreiber einer Seite gesendet werden. Damit wäre es dann möglich den Inhalt so aufzubereiten, dass der Nutzer nur die Themen sieht, die ihn tatsächlich interessieren.

Problem I:

Bei großen Sites ist die Anzahl der Nutzer groß genug, dass aus den Themen-Clustern eines Profils dieses wieder deanonymisiert werden kann. Dazu gibt es genügend Studien und das sollte jeder halbwegs informierte Produktmanager auch wissen. Zumal ja neben dem Profil nach wie vor genügend Daten über den Browser (User Agent String) mitgesendet werden.

Problem II:

Die Filter-Bubble, die von vielen als antidemokratisch eingeschätzt wird, verengt sich noch mehr. Statt der Möglichkeit, sich umfassend über die Welt durch verschiedenste Medien informieren zu können, werde ich – ohne es zu wissen – einer heilen Welt gefangen gehalten.

Problem III:

Die Klassifizierung der Themen kann durch einen Inhalteanbieter manipuliert werden. Gesetzt den Fall, ein Forum, deren tägliche Besucher sich über historische Landkarten austauscht, bekommt zu wenige Werbeanzeigen durch die großen Werbenetzwerke. Was liegt näher als sich dann einen Bereich auszusuchen, der häufig gebucht wird. Vielleicht Schuh-Shopping oder Versicherungen. Alle Nutzer des Forums würden dann (wg. der häufigen Besuchsfrequenz) auf anderen Seiten plötzlich nur noch Schuhe oder Versicherungen angeboten bekommen.

Problem IV:

Schon heute werden Daten durch die Sites über den Server weitergegeben. So entstehen Netzwerke, die die Cookies und Fingerprints abgleichen. Würden die Browser zukünftig noch die Profile übertragen, hätten wir es endgültig mit dem gläsernen Surfer zu tun. Und nicht nur die Werbeindustrie hat ein existentielles Interesse daran.

Und tatsächlich löst die Idee des Profiling das Problem der überbordenden Werbung gar nicht. Es wird nicht dazu führen, dass weniger Werbung erscheint und es wird nicht dazu führen, dass Publisher mehr Geld erhalten. Denn dieses Problem erwächst aus der preiswerten Schaffung und Verbreitung von Inhalten im Netz. Mehr Daten an die Werbetreibenden vermitteln diesen jedoch den Eindruck, dass sie die Hälfte der Ausgaben sparen könnten. Dies ist der Grund, warum auch heute noch die Budgets für TV, Zeitung, Aussenwerbung und Radio wesentlich höher sind als die für Onlinewerbung.

Statt sich neue Methoden auszudenken, wie man an noch mehr Daten kommt, sollten sich die Publisher mit den Browserherstellern vor die Nutzer stellen und die Erhebung und Weitergabe der Daten verhindern. Dann würde Online plötzlich ein ganz normaler Kanal im sogenannten Werbemix und dort plötzlich nicht mehr die Conversion zählen sondern wieder die gute alte Währung der Kontakte.

Wasch mich, aber mach mich nicht nass

Aber offensichtlich ist Mozilla inzwischen unterwandert von Marketing-Experten, die auf der einen Seite die Privatsphäre der Nutzer propagieren auf der anderen Seite aber die Werbeindustrie nicht vergraulen wollen. Schon Do-Not-Track – vorgeschlagen von Mozilla – muss man so interpretieren. Denn die gesamte Idee basiert auf Freiwilligkeit der Serverbetreiber und stellt nur einen kalten Abklatsch von P3P dar. Dieses wesentlich bessere System hat Mozilla übrigens 2000 aus dem Browser entfernt.

Written by qrios

July 26th, 2013 at 7:24 pm

Posted in analytics,web

Unter der Haube von Adblock Plus

without comments

Bei Mobilegeeks ist grade ein ausführlicher Artikel über Adblock Plus erschienen. Beleuchtet werden die wirtschaftlichen und personellen Verflechtungen und das intransparente Geschäftsmodell hinter dem freien Angebot. Es scheint sich um einen dicken, schmutzigen Sumpf zu handeln. Laut eigener Aussage des Geschäftsführers Till Faida können sich beispielsweise Investoren freischalten lassen. Zitat aus der Thurgauer Zeitung (Schweiz):

Seit Ende 2011 bieten Sie das Acceptable-Ads-Programm an. Beispielsweise zahlen Suchmaschinen für die Aufnahme in Whitelists? Kann sich jeder Werbetreibende bei Ihnen einkaufen?
Nein – von einigen strategischen Partnern einmal abgesehen, die darum gebeten haben, nicht genannt zu werden.

 

Written by qrios

June 26th, 2013 at 12:12 pm

#PRISM, Big Data und der Überwachungs-industrielle Komplex

with 5 comments

Die Aufdeckung der umfassenden Vorratsdatenspeicherung der NSA durch Edward Snowden hat die Öffentlichkeit kalt erwischt und auf einen Schlag sind fast alle Verschwörungstheoretiker rehabilitiert. Interessant an dem gesamten Gegenstand sind mehrere Aspekte, insbesondere, wenn man sich normalerweise mit der Analyse und dem Umgang mit “Big Data” beschäftigt:

“Metadaten”

Im Rahmen von PRISM erfasst die NSA die Verbindungsdaten ohne die Kommunikationsinhalte selbst. Viele Menschen sehen das Programm deswegen erstaunlich entspannt. Dabei übersehen sie jedoch, dass in einem Netzwerk die Verknüpfungen selbst, die eigentlichen Inhaltsträger sind. Aus dem Verbindungsprofil selbst lässt sich ein nahezu vollständiges Persönlichkeitsprofil erstellen. Tagesaktivität, wiederkehrende Verhaltensmuster, Aufmerksamkeitsspanne, Gedächtnisleistung, nahezu alle Aspekte, die einen Menschen von einem anderen unterscheiden und damit seine Identität darstellen, können aus den reinen Verbindungsdaten abgeleitet werden.

Wissenschaft und Wirtschaft im PRISM-Kontext…

Written by qrios

June 12th, 2013 at 2:46 pm