Was man genau unter big data versteht, kann wohl kaum jemand beantworten.
Eine typisches Charakteristikum ist jedoch, dass man aus einer großen (riesigen) Datenmenge etwas schließen will, ohne zu wissen, wie man das eigentlich tun kann.
Häufig werden hier Algorithmen wie neuronale Netze eingesetzt, die selbst lernend sind. D.h. man hat mehrere (viele) einzelne Datensätze, bei denen man die Antwort auf eine bestimmte Frage weiß. Damit trainiert man dann einen selbst lernenden Algorithmus (z.B. ein neuronales Netz).
Ein leider wahres Beispiel:
Ein Bank lässt einen Kunden, der einen Kredit beantragen möchte, einen langen Fragenbogen mit anscheinen völlig irrelevanten Frage ausfüllen.
Darin kommen z.B. Hobbys, Vorlieben für bestimmte Musik, Liebingssportarten, u.s.w. vor.
Nun hat die Bank viele solche ausgefüllten Fragebögen, von deren Autor sie weiß, ob er seine Rückzahlungen pünktlich durchgeführt hat oder eben nicht.
Das neuronale Netz wird jetzt darauf trainiert, dass es dieses Verhalten des Kunden richtig vorausgesagt hätte.
Nach einigem Training verwendet man dies dann im Vorfeld, um zu entscheiden, ob jemand kreditwürdig ist oder nicht.
Wohnt man z.B. in Straße S im Ort O, und hatte die Bank schlechte Erfahrungen mit Personen, die in derselben Straße (und Ort) wohnen, so kann es durchaus sein, dass man keinen Kredit bekommt, obwohl man sich diesbezüglich nie etwas zuschulden hat kommen lassen.
Ähnliches setzen auch Börsenspekulanten ein und andere, deren Entscheidung noch von sehr viel größerer Tragweite sein kann.