qrios

IT ist kurios!

Archive for the ‘science’ Category

Der #Algorithmus, das unbekannte Wesen

without comments

Hier und da poppt seit Jahren eine mehr oder minder starke Furcht vor Algorithmen auf. Egal ob von Meckel, Schirrmacher oder anderen Fuilleton-Natives ist der Tenor immer ähnlich: wir werden alle störben Algorithmen sind dabei den Menschen einzuschränken. Da freut es denjenigen, der sich im Studium mal intensiv mit Technikkritik beschäftigt hat dann doch, dass auch mal eine etwas kenntnisreichere Stimme zu Wort kommt. In der SZ erschien ein Artikel von Kathrin Passig mit dem Titel “Warum wurde mir ausgerechnet das empfohlen?“.

Nun ist Kathrin Passig nicht unbedingt ausgewiesene Algorithmus-Expertin hebt sich aber durch digitale Erfahrung erfrischend von den Mahnern ab. Nur leider hat sie das Thema auch nicht verstanden. Was schade ist, da mspr0 ihr gleich zur Seite springt und ihre (Falsch-)Aussagen kunstvoll in seine These vom Kontrollverlust und der darauf zwangsläufig folgenden Postprivacy einflechtet. Warum Falschaussagen? Weil sie zum Beispiel eine Bestsellerliste einem Algorithmus gegenüberstellt. Dabei ist eine Bestsellerliste genau das: das Ergebnis eines Algorithmus. Den können zwar alle verstehen aber dadurch wird er nicht zum Nicht-Algorithmus.

Für sie ist – wie für die Mahner – ein Algorithmus etwas, das (bei genügend großer Komplexität) ein Mensch nicht mehr verstehen kann. Dazu wird ein (unverlinktes) Zitat bemüht:

Die am Wettbewerb beteiligten Teams [die Programmierer der Algorithmen] gaben in Interviews an, nicht mehr nachvollziehen zu können, wie ihre eigenen Algorithmen zu manchen Ergebnissen gelangen.

Diese Aussage kann man jetzt in mindestens drei Richtungen deuten. Die Programmierer verwenden Code, den sie nicht selbst geschrieben haben (Framework, Compiler) und dies führt zu einem Black-Box-Verhalten, die Programmierer haben Code geschrieben, der sich selbst verändert oder die Programmierer kennen nicht mehr alle Werte, der zu diesem Ergebnis geführt hat.

Der erste Fall kommt recht häufig vor ist aber sicher nicht gemeint, da die konkrete Implementierung egal ist, solange das gewünschte Ergebnis produziert wird. Sollte mein Code trotz eingehender Prüfung nicht mehr das tun, was ich gerne hätte, würde ich überprüfen, ob die beteiligten Frameworks nicht das tun, was ich erwarte und im letzten Schritt, ob der Compiler merkwürdige Seiteneffekte produziert. (Aber normalerweise würde ich erst mal schlafen gehen, weil sich das Problem am nächsten Tag meistens in Luft aufgelöst hat.)

Der zweite Fall ist schon etwas komplizierter. Selbstveränderlichen Code gibt es bereits und wird insbesondere von Virenprogrammierern eingesetzt. Dabei geht es aber nicht um eine Veränderung der prinzipiellen Funktionsweise im Sinne von Evolution sondern lediglich um Mimikri. Ein solcher Code würde im Idealfall tatsächlich dazu führen, dass selbst die Entwickler ihn nicht mehr ohne eingehendes Studium von jedem anderen Code unterscheiden könnten und nicht sagen könnten, was der Code tut. Und dies obwohl sie ihn selbst geschrieben haben.

Es ist mit hoher Wahrscheinlichkeit in dem Zitat der dritte Fall gemeint. Eine Liste von Eingabewerten wird immer wieder durch die Maschine geschickt und kalibriert die vorgegebenen Schwellwerte an Hand von Erfolg und Misserfolg. Dabei kommt in den einzelnen Zwischenschritten viel Stochastik zum Einsatz und ab und zu wird mal der Zufallsgenerator angeworfen, um das ganze System vor der zwangsläufigen Stasis zu beschützen. Die eingesetzen Algorithmen sind in den meisten Fällen mit den mathematischen Fähigkeiten eines Realschülers zu verstehen. Die anscheinende Komplexität entsteht nur aus der Anzahl der Eingabedimensionen und der Anzahl der Iterationen.

Wichtig an diesem Punkt ist besonders der Begriff des Schwellwertes. Denn hierbei handelt es sich nicht um ein einzelnes Bit, dass gesetzt ist oder nicht. (Aber selbst bei solchen Systemen kommen schon komplexe Verhalten zu Stande. Dazu möge man sich die dreißig Jahre alten Arbeiten über zelluläre Automaten von Stephen Wolfram ansehen.)

Schwellwerte werden normalerweise als Fließkomma implementiert. Computer und damit auch Algorithmen sind allerdings recht ungenau im Umgang mit Zahlen wie 1/3 oder Wurzel aus 2. Da es sich um endlose Zahlen handelt muss eine CPU diese Werte runden. Und je nach dem, in welchen Zustand (z.B. in welchem Speicher sich die Werte befinden) kommt eine etwas andere Zahl bei der Operation raus. Genau genommen haben wir es hier mit einer Heisenbergschen Unschärfe zu tun.

Da ein Algorithmus jedoch nichts anderes ist als eine Aneinanderreihung von Operationen ist, werden selbst bei exakt bekannten Eingangswerten die Ergebnisse um so unverhersagbarer je öfter eine solche Rundung stattfindet.

Einer der wichtigsten aktuell im Einsatz befindlichen Algorithmen ist die Page-Rank-Berechnung von Google. Obwohl bisher nicht nach aussen gedrungen ist, wie er exakt aufgebaut ist, basiert darauf die ganze SEO-Branche. Für viele handelt es sich um reines Google-Voodoo. Dabei kann man an Hand unterschiedlicher Ergebnisse eine Art Verhaltensforschung betreiben. Und obwohl ich noch niemanden gehört habe, der meint, es würde sich um ein Lebewesen handeln verhält er sich dennoch anscheinend so. Ich kann ihn untersuchen an Hand möglichst vieler Parameter, die er auch (vielleicht) sieht. Seine vollständige Funktionsweise könnte ich jedoch nur ermitteln, wenn ich ihn immer wieder in den gleichen Zustand versetzen könnte, was ginge. Ich müsste allerdings auch seine Umwelt wieder in den gleichen Zustand versetzen, was nicht ginge.

Nichts desto trotz ist der Page-Algorithmus einfach und Lerry Page versteht ihn sicher nach wie vor und etliche seiner Mitarbeiter auch.

(Quelle animiertes Gif: http://de.academic.ru/dic.nsf/dewiki/279011)

Written by qrios

January 10th, 2012 at 12:14 am

Wissenschaftler … nicht zur Party eingeladen.

with one comment

Douglas Adams schrieb im ersten Teil des Anhalters durch die Galaxis über die Entdeckung des unendlichen Unwahrscheinlichkeitsdrives durch einen Studenten, der das Labor putzen musste und sich fragte, was eigentlich passieren würde, wenn er die Aperatur an eine wirklich heisse Tasse anschlösse und dabei zufällig die wichtigste Entdeckung des Universums machte, sinngemäß, dass das, was Wissenschaftler wirklich nicht ertragen könnten, Besserwisserei sei. Tatsächlich war es jedoch so, dass sie es einfach nicht ertragen konnten, nie zu den wirklich wichtigen Partys eingeladen zu werden.

Schade eigentlich, dass ihr nie zu den wirklich wichtigen Partys eingeladen werdet. Aber so, wie ihr Euch grade gebärdet werden aber auch in Zukunft nur die Typen mit den langen oder gar keinen Haaren eingeladen …

Und es geht eben nicht um die Frage “Wozu Atomkraftwerke?” sondern um die Frage ,warum sich Wissenschaftler instrumentalisieren lassen. Warum sie, zu dem was sie antreibt nicht stehen. Warum sie sich durch Drittmittelanträge, dreijährige Hiwi-Stellen und Fußnoten-#dickbars von ihren ursprünglichen Antrieben abtreiben lassen. Leute, die was wollen werden nicht reich. Punkt.

Written by qrios

March 17th, 2011 at 9:01 pm

Posted in science

Wege aus der Privatsphärenfalle

without comments

Es gilt heute bei vielen als gegeben, dass private Datensätze in verschiedenen Datenbanken mittels geeigneter Techniken gematcht werden können und damit ein Bezug zwischen zugeordneten und losen Daten hergestellt werden kann. Oder konkret: wenn ich auf der einen Site mein Geburtsjahr, -ort und Geschlecht angebe und auf der anderen Site den Geburtsort, Geschlecht und Ausbildung, kann ein Dritter mit Zugriff auf beide Datensätze, eine Beziehung zwischen beiden Datensätzen herstellen. Für viele (nicht alle) ist die Vorstellung, dass ihre sauber getrennten Identitäten in verschiedenen sozialen Aspekten verknüpft werden können ein Graus.

Die Frage ist daher, ob es ein Verfahren gibt, die Vorteile von digitalen Identitäten zu geniessen ohne die Kröte der erodierenden Privatsphäre in Kauf nehmen zu müssen. Eine erste Lösung stellte Latany Sweeney 2002 in dem Aufsatz k-Anonymity: A Model for Protecting Privacy dar. Die Idee ist recht einfach. Es werden einfach Daten ‘dequalifiziert’ oder unscharf gemacht. Aus dem Geburtsort könnte so zum Beispiel der Landkreis werden. Eine deutsche Darstellung, wie das Verfahren funktioniert hat Dietmar Hauf von der Uni Karlsruhe veröffentlicht.

In einem neuen Papier auf arXiv beweisen drei Autoren der Purdue University jedoch, dass dieses Verfahren ohne Erweiterung keinen ausreichenden Schutz bietet. Sie verknüpfen in der Arbeit “Provably Private Data Anonymization: Or, k-Anonymity Meets Differential Privacy” das Modell der k-Anonymity mit der als Differential Privacy bezeichneten Methode, die zum Beispiel für den facebook-Gegenentwurf diaspora diskutiert wird.

Written by qrios

January 26th, 2011 at 12:59 pm

2cm-GPS-Genauigkeit für alle!

with 6 comments

Die Genauigkeit eines heute Verfügbaren GPS-Empfängers liegt – je nach Quelle und Empfänger – bei 3 bis 50 Metern. Im Prinzip wäre GPS geeignet wesentlich genauer zu arbeiten. Allerdings wird die Genauigkeit durch natürliche und künstliche Einflüsse beeinflusst. Da diese Einflüsse aber auf alle Empfänger wirken kann man diese Abweichungen eigentlich rausrechnen. Dazu wird die Abweichung von einem Gerät berechnet, bei dem die exakte Position bekannt ist. (Eigentlich wird nicht die Abweichung der Postition berechnet, sondern die Abweichungen der Signallaufzeit zu den einzelnen Satelliten). Ein solches Differenzsignal nennt sich sperrig RTCM (Radio Technical Commission for Maritime Services) und kann von teureren Empfängern benutzt werden.

Ein normaler GPS-Empfänger ist ein recht nervöser Zeitgenosse. Ohne Korrektursignal springt die Position selbst dann, wenn man sich nicht bewegt.

Mit einem korrigierten Signal erreicht man – je nach Quelle – eine Genauigkeit von bis zu 2cm. Grade in unwegsamem Gelände (Häuserschluchten!) erhöht sich die Genauigkeit deutlich weil der Empfänger nur sehr wenige Satelliten sieht und Abweichungen (z.B. absichtliche Zeitverzögerungen) der einzelnen Signale sich besonders deutlich auswirken.

Für dieses Korrektursignal gibt es seit einigen Jahren sogar das Internetprotokoll Ntrip (Networked Transport of RTCM via Internet Protocol). Die Daten werden dabei im Wesentlichen in einen HTTP-Stream verpackt auf Anfrage ausgesendet. In Deutschland gibt es dutzende Server, die die Korrekturdaten für verschiedene Positionen senden. Allerdings sind offensichtlich alle geschützt und/oder kostenpflichtig. Mit dem schönen Namen SAPOS (Satellitenpositionierungsdienst der deutschen Landesvermessung) bieten die Länder verschiedene Dienste (siehe AdV) mit unterschiedlicher Genauigkeit an, die über unterschiedliche Medien übertragen werden. In Berlin sendet der RBB zum Beipsiel auf 88,8 ein Signal mit dem eine Genauigkeit von unter 2m berechnet werden können. Genauere Daten sind allerdings bei allen Bundesländern nur kostenpflichtig zu erhalten. Mit 10 Cent pro Minute dürfte es sich um den teuersten behördlichen Dienst überhaupt handeln.

Jetzt ist es aber nicht so, dass der Betrieb einer Referenzstation und die Bereitstellung der Korrekturdaten Raketenwissenschaft ist. Zwar wird dabei mit relativistischen Effekten gerechnet aber die Formeln sind bekannt und zum Teil als OSS (RTKLIB)  verfügbar. Inzwischen gibt es immer mehr Empfänger die sich dazu bringen lassen, die Rohdaten rauszurücken und bieten damit alles, was man als Referenzstation benötigt. Ein Set aus einem Navilock 551EUSB für ca. 30 € betrieben an einem Beagleboard für 150 € unter Ångström Linux, vernünftig kalibriert und mit dem Netz verbunden würde einen hervorragenden Ntrip-Server liefern.

Ein solcher Korrekturserver könnte jedes online verbundene Smartphone mit einer Genauigkeit im Zentimeterbereich ausstatten. Zusammen mit den inzwischen verfügbaren Gyroskopsensoren in aktuellen Androidgeräten und iPhones würden AR-Programme plötzlich wirklich Spass machen.

Es bleibt also die Frage, wer in Zukunft umsonst solche Referenzmessungen anbietet. Hallo Google? Hallo Nokia? Aber eigentlich ist es ja ein hervorragendes Crowdsourcing-Projekt.

Hier lang gehts zu weiteren Informationen:

Written by qrios

December 30th, 2010 at 3:53 pm

telepolis spezial: kosmologie

without comments

Nur eine kurze Empfehlung für das Telepolis spezial: Kosmologie. Verschiedene Artikel über die Fragen: Sind wir allein im Universum? Wenn ja, warum? Wenn nein, wo sind die anderen? u.s.w. Gut aufbreitet und sehr umfassend betrachtet. Die Geschichte mit den Dogons und Sirius wird zwar leider nur kurz angerissen und nicht aufgeklärt aber trotzdem [++].

Written by qrios

March 9th, 2010 at 8:50 pm

Posted in science

climategate – meine schonfrist für wissenschaftler ist abgelaufen

with 5 comments

Jemand bricht in den/die Computer der Climatic Research Unit der University of East Anglia ein. Der Ungenauigkeit halber handelt es sich um einen Hacker. Tatsächlich ist es eher ein Cracker und eigentlich ist es sogar ein Whistleblower. Dieser Jemand stellt die Daten danach anonym als Zip-Datei unter dem Namen ‘FOI2009.zip’ in ein Forum. Nach wenigen Stunden findet sich die 60 MByte große Datei auf Torrent-Servern und bei Rapidshare.

Wie aus dem Hockeyschläger ein Bumerang wurde …

Written by qrios

November 24th, 2009 at 1:23 am

Posted in netzpolitik,science

leben auf einer supererde

without comments

Die Suche nach Exoplaneten ist inzwischen ein respektabler Zweig der Astronomie und es vergeht kaum ein Monat in der nicht eine besondere Nachricht über den Fund des größten, am weitesten entfernten, nächstgelegenen oder was-auch-immer Planeten in einem anderen Sonnensystem auftaucht. Wenn gleichzeitig 32 Exoplaneten gefunden werden ist das eine News, die auch mal wieder in die Mainstream-Medien (CNN, Focus) landet. Auch wenn es eigentlich nur 30 sind, da sich – laut Scienceblogs – zwei Braune Zwerge in die Liste gemogelt haben.

Für die Öffentlichkeit ist dabei eigentlich nur die Frage interessant, ob auf diesen Planeten Leben möglich ist oder gar existiert. Letzteres können wir nur durch Überprüfung vor Ort klären (es sei denn, wir würden das dortige Radioprogramm empfangen). So müssen wir uns damit begnügen, die Eigenschaften der Planeten zu extrapolieren.

Read the rest of this entry »

Written by qrios

October 20th, 2009 at 12:04 pm

Posted in science

Tagged with ,

dunkle materie bleibt weiter im dunkeln

without comments

Die dunkle Materie führt nicht wirklich ein Schattendasein. Sie wird von den meisten Physikern als verantwortlich für die sich zu schnell drehenden Galaxien angesehen. Einige wenige bemühen sich unermüdlich eine andere Erklärung zu finden. Sie scheuen dabei nicht mal davor zurück, die Newtonschen Gravitationsgesetze in Frage zu stellen. Aktuelle Forschungsergebnisse geben ihnen Recht. Nach einer sehr missverständlichen Darstellung würden die bisherigen Modell alle nur dann funktionieren, wenn die dunkle Materie immer genau wüsste, was die sichtbare (baryonische) Materie tut und sich entsprechend verhält. Präziser ausgedrückt sollte es heissen: es müsste nach ihren Ergebnissen eine weitere Wechselwirkung zwischen der sichtbaren und unsichtbaren Materie geben. Diese kann es aber nicht geben, da wir sie ja an der sichtbaren Materie wahrnehmen können müssten.

Written by qrios

October 4th, 2009 at 9:28 pm

Posted in science

Tagged with ,

neustart

without comments

Ein Serverausfall, ein defektes Backup, ein kaputter MySQL-Dump und zwei Monate später ist die Erkenntnis, dass 140 Zeichen nicht reichen übermächtig. Also geht es weiter mit qrios.

Dank Google-Cache werden wohl auch einige alte Artikel wieder den Weg in die neue Datenbank finden. Sie sind gekennzeichnet mit [aus dem google-cache]. Die Kommentarfunktionen sind für diese Artikel gesperrt und leider kann ich die URLs nicht so modifizieren, dass die alten noch funktionieren.

Written by qrios

September 16th, 2009 at 1:15 am

Posted in science