Archive for the ‘analytics’ Category
Do Not Track: Google in der Klemme [Update]
… I don’t know what a Do Not Track header is. …
Googles Chefanwalt für Datenschutz Keith Enright weiss nicht, was der Do-Not-Track-Header ist oder besser was er tun soll beziehungsweise, was Anbieter machen sollen, wenn ein Browser mit dieser Einstellung vorbeischaut.
Tatsächlich fügt Enright mit dieser Aussage meinem Hauptkritikpunkt an dieser Technik einen weiteren wichtigen Punkt hinzu: die User Experience. Was erwartet ein User, wenn er dieses Feature des Browsers einschaltet? Auch Anne Toth, Privacy-Chefin bei Yahoo, gibt zu, dass sie nicht wissen, was der Nutzer meint, wenn er diese Option einschaltet. Damit machen sie nun eine weitere Front gegen die Technik auf, nachdem sie es bisher – Seite an Seite mit facebook – damit probiert haben, den großen Jobabbau als Menetekel an die Wand zu malen oder gar mit sinkender Sicherheit zu drohen.
Für Google ist die Situation jedoch besonders kompliziert, da die Firma sowohl einen Browser anbietet – und diesen mit Funktionen für die Bearbeitung von Flash-Cookies als ‘Privacy-Browser’ etablieren möchte – als auch ein Schwergewicht im Online-Ad-Markt ist. Mit Produkten wie Doubleclick, AdSense und AdWords verdient Google den größten Teil seines Geldes. Hinzu kommt Google Analytics als Crowd-Sourcing-Tool für die Verbesserung aller Google-Dienste.
Das Ende von Visits und Unique Visitors
Würde man annehmen, dass der User von der Do-Not-Track-Funktion erwarten könnte, dass kein Anbieter zwischen zwei Seitenaufrufen einen Bezug herstellen könnte, hätte man die maximale Nutzererwartung – recht abstrakt – beschrieben. Die einfachste technische Umsetzung dafür wäre ein transparenter Proxy, der bei allen Aufrufen mit dem Do-Not-Track-Header die Requests anonymisiert und erst dann an den Web-Server weiterzuleiten.
Damit würden aber die beiden wichtigsten Währungen der Online-Werbewirtschaft Visits und Unique Visitors obsolete werden. Die meisten Display-Ads werden aber danach abgerechnet. Diese beiden Kennziffern sind am ehesten mit den klassischen Messwerten Kontakt und Reichweite vergleichbar und werden im Marketingmix diesen beiden oft gleichgesetzt.
ClickToFlash offensichtlich weit verbreitet
Flash geniesst insbesondere bei Mac-Nutzern nicht den besten Ruf. Der Hauptgrund dafür sind sicher nicht ideologische Gründe (wie bei mir) sondern der extreme Leistungshunger. Die Browsererweiterung ClickToFlash führt daher zur erheblichen Entspannung der Situation und Abkühlung des Prozessors. Ruft man damit eine Seite mit Flash auf, behauptet das PlugIn, es sei das Flash-PlugIn und stellt statt des Flash-Films einen Platzhalter dar. Erst nach einem Klick auf diesen Platzhalter wird das richtige Flash geladen. Neben der Reduzierung des Prozessorhungers führt dies unter anderem auch zu einem schnelleren Laden insbesondere auf Newseiten, da – für viele sicher ein angenehmer Nebeneffekt – auch viele Werbebanner nicht geladen werden.
Bisher war allerdings nicht klar, wie viele Nutzer ClickToFlash tatsächlich benutzen. Auf einer großen Site mit mehreren Millionen Nutzern hatte ich Gelegenheit, mit Google Analytics dieser Frage nachzugehen. Da Google Analytics als PlugIns nur Flash und Java ausgibt, kann man die Frage nur indirekt beantworten. Die Erfassung durch Google liefert jedoch nur bei dem tatsächlichen Flash eine Versionsnummer. Für Browser mit ClickToFlash meldet Analytics “(not set)”. Die folgenden Daten basieren auf den letzten vier Wochen. Es werden die Flash-Versionen ausschliesslich für Besucher mit Safari unter MacOSX dargestellt. Insgesamt entsprechen sie etwa 2,5% und mehrere hunderttausende aller Besucher.
Es ist anzunehmen, dass unter den 42% ohne Flash-Version nicht nur ClickToFlash-Nutzer sind. Immerhin liefert Apple die aktuellen Geräte ohne Flash aus. Allerdings wage ich zu bezweifeln, dass diese Nutzer lange ohne Flash unterwegs sind, da sie früher oder später doch auf eine Seite stoßen, die ohne Flash nicht zu benutzen ist.
Zusammen mit anderen Systemen (Windows, iOS, Android, etc,) und Browsern (Firefox, Chrome, etc.) finden sich momentan knapp 8% aller Besucher der Site, die kein Flash sehen können oder es per default ausgeschaltet haben. Auf meiner Seite sind es übrigens 12,5%.
Wie Google Analytics den Anteil der Suchanfragen schönrechnet
Für Site-Betreiber und Blogger sind die eingehenden Keywords eine der wichtigsten Quellen für direktes Feedback. Wenn jemand mit dem Suchterm “warum werde ich nie zu partys eingeladen” zu qrios kommt, kann ich in Zukunft vielleicht mehr praktische Lebenstipps geben. Oder auch nicht.
Google zählt Keywords immer wieder und wieder und wieder …
Allerdings würde ich erwarten, dass mir diese anonyme Suche nur dann in den Keywords von Google Analytics gezeigt wird, wenn sie auch tatsächlich stattgefunden hat. Leider sieht Google das etwas anders. In der Liste der Keywords schlägt das sogenannte First Cookie Counting zu.
Wenn ein Nutzer beispielsweise im März bei Google nach “nokia analyse” gesucht hat und dabei auf qrios.de gestossen ist, erscheint diese Suche in den Keywords. Findet der Nutzer die Inhalte hier interessant und kommt im April mal wieder vorbei (weil er sich an die URL erinnert oder von seinem Browser daran erinnert wird oder noch Bookmarks verwendet) dann erscheint “nokia analyse” wiederum in der Analyse für den April.
Spielereien mit iPhoneTracker
In der öffentlichen Wahrnehmung hat Apple Google mal eben rechts überholt und das ohne zu blinken. Streetview war gestern, heute ist “consolidated.db”. Diese Datenbank der Positionen des iPhone/iPad existiert offensichtlich schon länger und wurde laut verschiedenen Quellen bereits von Forensikern genutzt. Die breite Öffentlichkeit und damit auch die tagesschau, heise, golem und ich erlangte erst Kenntnis davon als letzte Woche das Programm iPhoneTracker veröffentlicht wurde. (Sonst hätte ich mir damals nicht die Mühe mit dem iPhone moblog gemacht …). Wiedermal ein sehr schönes Beispiel dafür, dass das Verständnis von IT mit dem Userinterface steht und fällt (Hallo SAP?).
Ursprünglich klang für mich das ganze sehr stark nach einem typischen “Programmierer braucht für die Entwicklung ein Log und keiner denkt beim Release daran”. Immerhin basierte lange Zeit die ganze Webtracking-Branche auf den Serverlogs, die eigentlich nur zum debuggen gedacht waren.
Inzwischen kristallisiert sich aber raus, dass es sich keineswegs um ein Versehen handelt und die daraus zu ziehenden Schlussfolgerungen sind nicht schön, at least für Apple. Hervorragend zusammengefasst von Frank Rieger. Aber ich hätte mich nicht erst seit den aktuellen Erkenntnissen geweigert, mein Telefon am Empfang der US-Botschaft abzugeben, wie es – laut Max Winde im letzten mobilemacs-Podcast – mspro vor einiger Zeit machen musste.
Unabhängig von der Bewertung und dem extrem negativen Impact für Apple (den die echten Fanboys schäumen lassen) freue ich mich natürlich, dass ich ohne Jailbreak und entsprechende Tools jetzt eine Datenbank meiner Positionen habe.
Aber warum sind die Daten so ungenau und warum werden mir nur ganze Wochen angezeigt? Geht’s auch etwas genauer?
Android wird von WebAnalytics-Tools nicht korrekt gezählt
WebAnalytics-Tools wie Google Analytics, Yahoo! Web Analytics oder Sitestat können in vielen Fällen Android-Geräte nicht als solche erkennen, sondern betrachten sie als Safari unter MacOSX.
Bei der Nutzungsanalyse einer großen Site eines Kunden wunderte ich mich diese Woche mal wieder über die verhältnismäßig wenigen Zugriffen von Android-Geräten. Google Analytics weist für den September 2011 etwas über 15000 Visits aus. Im Februar 2012 sind es knapp doppelt so viele. Eine veritable Steigerung von 100% in fünf Monaten.
Wie komme ich also zu der Einschätzung, dass es verhältnismäßig wenige Android-Zugriffen seien?
In diesen fünf Monaten haben Android-Geräte laut aller Marktanalysen die Führung übernommen. Von einem weltweiten Marktanteil von 8,7% im Q4 2009 ist der Android-Anteil auf 32,9% im Q4 2010 gewachsen. Innerhalb eines Jahres wurde der Anteil also fast vervierfacht und inzwischen ist jedes dritte Smartphone ein Android-Gerät. Hinzu kommt der Wachstum des Marktes selbst, der sich in dieser Zeit knapp verdoppelte.
Google Chrome mit Instant Bounce Rate
Googles Chrome-Browser springt von einer Version zur nächsten und ist inzwischen bei Nummer 9 angelangt. Die Neuerungen halten sich meistens in Grenzen und es ist unklar ob in Googles Entwicklungsabteilung nur einige emacs-Gegner arbeiten, die möglichst schnell an dem Editor vorbeiziehen wollen.
Mit Google Chrome 9 wurde jetzt eine Funktion eingeführt, die erheblichen Einfluss auf das Verhalten der Nutzer haben könnte. Schaltet man in den Einstellungen “Google Instant” ein wird bereits während der URL-Eingabe die jeweils wahrscheinlichste Seite geladen. Je nach Historie des Surfens wird also bei ‘sp’ entweder spiegel.de oder spreeblick.com geladen.
Mir ist momentan nicht klar, ob eine solche Funktion aus User-Sicht wirklich sinnvoll ist, da ich insgesamt den Eindruck habe, dass viele neue Funktionen zu einer immer kürzer werdenden Aufmerksamkeitsspanne führen.
Auswirkungen hat diese Funktion jedoch auf die Webanalyse und damit auch auf den Betrieb einer Site. Denn in Zukunft werden mehr Seiten aufgerufen und direkt danach wieder verlassen. Die bisher schon sehr schwierig zu beurteilende Bounce Rate wird also steigen. Solange diese Funktion nicht von den anderen Browsern übernommen wird, kann man deren Bounce Rate benutzen, um den Chrome-Faktor zu berechnen. Leichter wird Webanalyse dadurch sicher nicht. Aber es fließen bestimmt noch mehr interessante Daten zu Google.
Über die Dummheit heutigen Retargetings schreibt steingrau
Markus Breuer regt sich in seinem Blog steingrau ausführlich über die heutigen Formen des Retargeting auf. Aber er rantet nicht nur sondern macht auch fünf Verbesserungsvorschläge. Diese halte ich allerdings nicht für erfolgversprechend, da die Regeln der Einblendung mittels statistischer Verfahren bestimmt werden und er somit nicht unter Willkür eines Regulators sondern unter dem Verhalten der anderen Nutzer leidet. Er geht bei seinen Vorschlägen offensichtlich von sich aus und vergisst, dass da draussen inzwischen viele User sind, deren Aufmerksamkeitsspanne im einstelligen Sekundenbereich zu liegen scheint.
Wege aus der Privatsphärenfalle
Es gilt heute bei vielen als gegeben, dass private Datensätze in verschiedenen Datenbanken mittels geeigneter Techniken gematcht werden können und damit ein Bezug zwischen zugeordneten und losen Daten hergestellt werden kann. Oder konkret: wenn ich auf der einen Site mein Geburtsjahr, -ort und Geschlecht angebe und auf der anderen Site den Geburtsort, Geschlecht und Ausbildung, kann ein Dritter mit Zugriff auf beide Datensätze, eine Beziehung zwischen beiden Datensätzen herstellen. Für viele (nicht alle) ist die Vorstellung, dass ihre sauber getrennten Identitäten in verschiedenen sozialen Aspekten verknüpft werden können ein Graus.
Die Frage ist daher, ob es ein Verfahren gibt, die Vorteile von digitalen Identitäten zu geniessen ohne die Kröte der erodierenden Privatsphäre in Kauf nehmen zu müssen. Eine erste Lösung stellte Latany Sweeney 2002 in dem Aufsatz k-Anonymity: A Model for Protecting Privacy dar. Die Idee ist recht einfach. Es werden einfach Daten ‘dequalifiziert’ oder unscharf gemacht. Aus dem Geburtsort könnte so zum Beispiel der Landkreis werden. Eine deutsche Darstellung, wie das Verfahren funktioniert hat Dietmar Hauf von der Uni Karlsruhe veröffentlicht.
In einem neuen Papier auf arXiv beweisen drei Autoren der Purdue University jedoch, dass dieses Verfahren ohne Erweiterung keinen ausreichenden Schutz bietet. Sie verknüpfen in der Arbeit “Provably Private Data Anonymization: Or, k-Anonymity Meets Differential Privacy” das Modell der k-Anonymity mit der als Differential Privacy bezeichneten Methode, die zum Beispiel für den facebook-Gegenentwurf diaspora diskutiert wird.
Do Not Track: formerly known as Schwachsinn
In Deutschland ist es per Gesetz untersagt, IP-Nummern zu speichern. Daran hält sich jedoch kaum jemand. In meiner Praxis habe ich bisher kaum eine Apache-Konfiguration gesehen, die als Log-File-Format nicht ‘combined‘ oder ‘common‘ verwendet hat. Beide Einstellungen speichern die IP-Adressen der User dauerhaft. Es hat mich jedesmal Überzeugungsarbeit (mit Hinweis auf die Probleme, die mal eine Justizministerin hatte) gekostet, dies zu ändern.
Wenn ein Gesetz und Strafandrohung bei Anbietern nicht dazu führen, dass IP-Nummern nicht gespeichert werden, wie bitte sollte ein http-Header mit der Aussage ‘do not track me’ dazu führen, dass Werbetreibende kein Targeting durchführen.
“Do not Track” soll in Zukunft im http-Header übermitteln, dass der User vor diesem Browser nicht wünscht, analysiert zu werden. Sozusagen eine Tarnkappe mit dem Hinweis “Falls Sie mich doch sehen, ignorieren Sie mich doch bitte!“.
Nun könnte man natürlich vermuten, dass Firmen wie Doubleclick sich in Zukunft hüten werden, Cookies an den Browser zu schicken. Natürlich werden sie das tun. Aber das hindert sie nicht daran, trotzdem profilierte Werbung auszuliefern. In Zukunft wird ein Retailer von seinen Werbenetzwerken einfach verpflichtet (respektive Preisnachlässe erhalten), Cookies verschiedener Partner durchzureichen. Dieses Durchreichen geschieht schon heute. Denn die Anbieter sind schon heute nicht unabhängig. Netzwerk X arbeitet bezüglich Branche Y mit Netzwerk Z zusammen.
Wenn ein User dann bei Shop A (wg. der Funktionen des Shops, zwinker, zwinker …) gezwungen wird, Cookies zu akzeptieren, werden diese an das Netzwerk durchgereicht. Wenn es nicht anders geht mit Hilfe von Mengenabfragen à la History-Hijacking.
Aber selbst dieses recht komplizierte Szenario muss eigentlich nicht bemüht werden. Denn mit dem Browser-Fingerprint gibt es eine funktionierende Methode der Wiedererkennung eines Systems an Hand von Browser- und Systemumgebung, ohne eine ID auf dem/vom Rechner des Users zu speichern/abzufragen.
Schlussendlich gibt es aber niemanden (am wenigsten einen Richter), der in der Lage wäre, zu unterscheiden, ob die technischen Umgebungsvariablen so sind wie sie sind, weil jemand wollte, dass sie so sind wie sie sind oder weil eine Standardkonfiguration meinte, dass es eine gute Idee wäre, dass sie so seien, wie sie sind.
Und – ganz ehrlich – glaubt irgendwer im Raum, dass facebook seine Like-It-Funktion disabled, wenn ein User die DNT-Funktion eingeschaltet hat? Mit jedem Recht kann facebook behaupten, dass diese Funktion nicht dem Tracking dient sondern der Kommunikation. Wenn diese Argumentation funktioniert, werden in Zukunft auch lauter Googles, Zanoxes und andere eine Community aufbauen. Haben sie schon versucht? In Zukunft werden sie wissen, warum es sich lohnt, selbst wenn sie NULL User haben …
Wissen Sie “Ich hab’s Ihnen ja gesagt” trifft es nicht so ganz.
In der WebAnalytics-Branche wird man langsam nervös. Die Federal Trade Commission in den USA hat einen Vorschlag vorgelegt, der den Usern von Webseiten in Zukunft ermöglichen soll, “Do Not Track”-Button zu drücken. Ein Site-Betreiber soll dann jegliches Tracking dauerhaft abschalten. Der Button geht mir eigentlich noch nicht weit genug. Ich folge da eher der EU, die denkt offensichtlich nicht nur an Opt-Out sondern sogar an Opt-In.
“Ich hab’s Ihnen ja gesagt” (1996, vor kurzem) trifft es nicht so ganz (2004) …