All das was man mittlerweile zu dem Thema findet, erschlägt einen förmlich. Viele interessante Berichte über die Wirtschaftlichkeit mit prozeduraler Auswertung über das Potenzial für Firmen kann man finden, Berichte über Big Data Projekte, Einsatzgebiete und Analysen, die bereits mit Big Data Tools gemacht wurden. Mit den Möglichkeiten, die MS Azure und HDInsight bieten, ist es wohl recht einfach (was sich dann noch herausstellen wird) ein eigenes Big Data-Projekt auf die Beine zu stellen.
In dem folgenden Artikel gebe ich eine kurze Einleitung, was Big Data ist und in folgenden Artikeln gibt es ein paar tiefere Informationen zu Tools und auch einem Beispielprojekt.
Nun gleich zu Beginn, Big Data hat keine wirkliche Definition. Man kann nicht an Hand von z.B. Datenmengen festlegen, ab wann ein Big Data-Projekt anfängt.
Big Data bezeichnet den Einsatz großer Datenmengen aus vielfältigen Quellen mit einer hohen Verarbeitungsgeschwindigkeit zur Erzeugung wirtschaftlichen Nutzens.Das Volumen dieser Datenmengen geht in die Terabytes, Petabytes und Exabytes. Nach aktuellen Berechnungen verdoppelt sich das weltweite Datenvolumen alle 2 Jahre.
Mit Big Data ist aber nicht nur die große Datenmenge gemeint, sondern vielmehr der Umgang damit. Bisherige Datenspeicher und –reporting Werkzeuge sind meist nur auf die Verarbeitung und Analyse der dort vorhandenen strukturierten Daten ausgerichtet und stoßen damit an ihre Grenzen.
Roger Magoulas , Verantwortlicher für Marktforschung bei O’Reilly Media
Diese kurze Definition ist (aus meiner Sicht) eine sehr gute Beschreibung von Big Data. Sie trifft genau den Kern des Problems und damit die Herausforderungen von Big Data-Projekten. Hier wird gar nicht erst versucht, das aktuelle Hype-Thema Big Data anhand reiner Zahlen anzugehen.
Was wohl jedem schon im Zusammenhang mit Big Data über den Weg gelaufen ist, sind die 3 V-Begriffe. Mittlerweile haben die sich sogar noch vermehrt, aber grundsätzlich wird Big Data von diesen 3 Begriffen charakterisiert:
Um bestimmte Sachverhalte verstehen zu können oder sogar Vorhersagen machen zu können, braucht es wiedererkennbare Muster. Dafür muss man auch die bisher eventuell ungenutzten Daten mit einbeziehen.
Man hat also eine große Menge bestehender Daten aber auch einen stetigen Fluss an neuen Informationen. Wenn man die in den historischen Daten gefunden Muster mit dem vergleicht, was gerade jetzt passiert, kann man die Dinge besser machen oder schlimmeres verhindern. Das kann einen großen Mehrwert bringen und auch Leben retten, aber nur wenn man ein System stehen hat, mit dem man es passieren sieht und damit menschlichen Ressourcen Zeit für Entscheidungen und zum Eingreifen gibt.
Daten waren früher als etwas definiert, das man in Tabellen mit Spalten und Zeilen speichern konnte. Die Welt von heute ist aber voll von strukturierten und unstrukturierten Daten. Für Systeme der alten Welt ist das ein großes Problem. Plötzlich gibt es auswertbare Daten, die sich nicht in eine Datenbank pressen lassen. Diese Daten werden dann entweder einfach ignoriert oder an für alte Systeme unzugänglichen Orten abgelegt. Diese Daten mit den historischen (strukturierten Daten) zu korrelieren, ist damit nicht mehr möglich und ‚The big picture’ ist nicht mehr erkennbar.
Die Herausforderung von Big Data ist es, Daten aus verschiedenen Quellen und damit meist in verschiedenen Formaten, so schnell wie möglich zu verarbeiten und zu verknüpfen. Man sollte aber auch ansatzweise wissen, was für eine Frage man damit beantwortet haben möchte.
Damit ist hier ein weiteres V von genau so großer Bedeutung:
Was man tatsächlich für Informationen aus einer Datenanalyse ermitteln möchte, sollte ganz am Anfang eines jeden Big Data Projektes stehen. Denn nur so kann man sagen welche Daten wie ausgewertet werden und ob die vorhandenen Daten überhaupt verwendbar sind.
Es geht also nicht unbedingt darum, so viele Daten wie möglich zu horten, sondern mehr darum aus dem, was man hat, verwendbare Informationen abzuleiten.
Welche Tools es mittlerweile für die Verarbeitung (mit Schwerpunkt Microsoft) gibt, folgt in Kürze im nächsten Artikel unserer Big Data Serie.