Von No Data über Small Data zu Big Data

Richtigerweise muss gesagt werden, dass der Mensch seit er denken kann mit Daten umgeht und diese jedoch nicht als solche deklariert hat. Auf der Bewusstseinsstufe des mystischen Denkens waren heute bekannte und gut erklärte Naturphänomene rätselhaft. Deshalb hat sich der Mensch anstelle der fehlenden Daten einfach Geschichten konstruiert. Heldensagen und Epen, genauso wie Mystiken waren das Resultat. Der Umgang mit den Daten und den daraus resultierenden Ergebnissen waren meist Zufälligkeiten – sowie das Beispiel der Naskapi bei der Rentierjagd zeigt. Es gab viele Rentierherden, nur die Jäger wussten nicht wo sie sich aufhielten. Jedes Jahr waren die Herden in einem anderen Gebiet – es war schwer die Karibus zu finden. Daher wurde ein - aus Tierknochen bestehendes - Roulette verwendet und die Jäger zogen genau in jene Richtung aus wo der Knochen stehen blieb und hinzeigte. Damit war eine hohe Zufälligkeit erreicht und das Ergebnis war besser als man es durch logisches Denken mit fehlenden Daten erreichen hätte können.

 

Im Laufe der Zeit – und speziell im 19. und 20. Jahrhundert – wurden die Daten aufgrund von Messinstrumenten immer mehr. Die Daten waren meist deshalb teuer, weil Messinstrumente und Messungen aufwendig und kostspielig waren. Man hat sich daher mathematisch-statistischer Methoden bedient, die aus wenigen Daten – der sogenannten Stichprobe – ein möglichst zuverlässiges Ergebnis lieferten. Eine maschinelle Datenverarbeitung wurde erstmals bei der Volkszählung 1890 in den USA verwendet. Damit konnte die Auswertungszeit potenziell verringert werden – der Weg für die strukturierte Datenerfassung war vorgegeben. Nichts desto trotz liegen heute nur 5 % der Daten in strukturierter Form in Datenbanken vor. Die Zeit der Small Data ist auch die Zeit des linearen Denkens und der Erforschung von Ursachen zu den Wirkungen.

 

Die Welt von Big Data umfasst nun auch die Bearbeitung von nichtstrukturierten Daten. Es könnten daher auch einige wenige völlig falsche Datenpunkte dabei sein. Diese spielen in der großen Anzahl kaum eine Rolle. Man stellt auch nicht mehr den Anspruch eine Ursache-Wirkung-Relation nachzuweisen. Vielmehr sind es Korrelationen die sichtbar werden. Beispielsweise wurde die deutsche Wettervorhersage deshalb besser, weil es viel mehr Messpunkte und damit Daten gibt. Als Messpunkte werden die Flugschreiber der deutschen Lufthansa eingesetzt. Damit hat man Zugang zu enorm hohen Datenmengen, die auch „billig“ zu haben sind. Ein anderes Beispiel aus dem Buch von Mayer-Schönberger zeigt die Korrelation von orangen Autos und dessen Reparaturhäufigkeit, welches in Relation zu andersfarbigen Autos im Geringsten ist. Daraus ein Ursache-Wirkungs-Prinzip abzuleiten ist müßig. Die Welt von Big Data zeigt mehr das „BigPicture“ und entwickelt komplexes Denken. 

ourEPICblog