eBizTalk - Berichten, Unterhalten, Weiterbilden
Ob Branchendiskurs, Fachartikel oder ein Blick hinter die Unternehmenskulissen: eBizTalk ist die Plattform, die uns auffordert, unsere Leser über Events und Projekte auf dem Laufenden zu halten. Und uns gegenseitig natürlich auch.

Big Data vorgestellt…

Veröffentlicht am 30.06.2014 von Ireen Raue , Big Data

Ein Hype-Begriff, der sich die letzten Jahre immer mehr verbreitet hat und um den man mittlerweile nicht mehr herum kommt. In den verschiedenen Medien wird darüber berichtet und es werden diverse Einsatzbereiche für Unternehmen gezeigt, die angeblich durch deren Einsatz, deutlich wirtschaftlicher arbeiten könnten.

All das was man mittlerweile zu dem Thema findet, erschlägt einen förmlich. Viele interessante Berichte über die Wirtschaftlichkeit mit prozeduraler Auswertung über das Potenzial für Firmen kann man finden, Berichte über Big Data Projekte, Einsatzgebiete und Analysen, die bereits mit Big Data Tools gemacht wurden. Mit den Möglichkeiten, die MS Azure und HDInsight bieten, ist es wohl recht einfach (was sich dann noch herausstellen wird) ein eigenes Big Data-Projekt auf die Beine zu stellen.

In dem folgenden Artikel gebe ich eine kurze Einleitung, was Big Data ist und in folgenden Artikeln gibt es ein paar tiefere Informationen zu Tools und auch einem Beispielprojekt.

Nun gleich zu Beginn, Big Data hat keine wirkliche Definition. Man kann nicht an Hand von z.B. Datenmengen festlegen, ab wann ein Big Data-Projekt anfängt.

Hier ist das, was Wikipedia dazu sagt:

Big Data bezeichnet den Einsatz großer Datenmengen aus vielfältigen Quellen mit einer hohen Verarbeitungsgeschwindigkeit zur Erzeugung wirtschaftlichen Nutzens.Das Volumen dieser Datenmengen geht in die Terabytes, Petabytes und Exabytes. Nach aktuellen Berechnungen verdoppelt sich das weltweite Datenvolumen alle 2 Jahre.

Mit Big Data ist aber nicht nur die große Datenmenge gemeint, sondern vielmehr der Umgang damit. Bisherige Datenspeicher und –reporting Werkzeuge sind meist nur auf die Verarbeitung und Analyse der dort vorhandenen strukturierten Daten ausgerichtet und stoßen damit an ihre Grenzen.

“Big Data ist, wenn die Daten selbst Teil des Problems werden”

Roger Magoulas , Verantwortlicher für Marktforschung bei O’Reilly Media

Diese kurze Definition ist (aus meiner Sicht) eine sehr gute Beschreibung von Big Data. Sie trifft genau den Kern des Problems und damit die Herausforderungen von Big Data-Projekten. Hier wird gar nicht erst versucht, das aktuelle Hype-Thema Big Data anhand reiner Zahlen anzugehen.

Die 3 Vs

Was wohl jedem schon im Zusammenhang mit Big Data über den Weg gelaufen ist, sind die 3 V-Begriffe. Mittlerweile haben die sich sogar noch vermehrt, aber grundsätzlich wird Big Data von diesen 3 Begriffen charakterisiert:

Volume (große Datenmenge): die Dinge digitalisieren

Um bestimmte Sachverhalte verstehen zu können oder sogar Vorhersagen machen zu können, braucht es wiedererkennbare Muster. Dafür muss man auch die bisher eventuell ungenutzten Daten mit einbeziehen.

Velocity (schnelle Verarbeitung): Zeit zum Eingreifen geben

Man hat also eine große Menge bestehender Daten aber auch einen stetigen Fluss an neuen Informationen. Wenn man die in den historischen Daten gefunden Muster mit dem vergleicht, was gerade jetzt passiert, kann man die Dinge besser machen oder schlimmeres verhindern. Das kann einen großen Mehrwert bringen und auch Leben retten, aber nur wenn man ein System stehen hat, mit dem man es passieren sieht und damit menschlichen Ressourcen Zeit für Entscheidungen und zum Eingreifen gibt.

Variety (Datenvielfalt): für “The Big Picture”

Daten waren früher als etwas definiert, das man in Tabellen mit Spalten und Zeilen speichern konnte. Die Welt von heute ist aber voll von strukturierten und unstrukturierten Daten. Für Systeme der alten Welt ist das ein großes Problem. Plötzlich gibt es auswertbare Daten, die sich nicht in eine Datenbank pressen lassen. Diese Daten werden dann entweder einfach ignoriert oder an für alte Systeme unzugänglichen Orten abgelegt. Diese Daten mit den historischen (strukturierten Daten) zu korrelieren, ist damit nicht mehr möglich und ‚The big picture’ ist nicht mehr erkennbar.

Die Herausforderung von Big Data ist es, Daten aus verschiedenen Quellen und damit meist in verschiedenen Formaten, so schnell wie möglich zu verarbeiten und zu verknüpfen. Man sollte aber auch ansatzweise wissen, was für eine Frage man damit beantwortet haben möchte.

Damit ist hier ein weiteres V von genau so großer Bedeutung:

Value (Wert): Entscheidungshilfe

Was man tatsächlich für Informationen aus einer Datenanalyse ermitteln möchte, sollte ganz am Anfang eines jeden Big Data Projektes stehen. Denn nur so kann man sagen welche Daten wie ausgewertet werden und ob die vorhandenen Daten überhaupt verwendbar sind.

Es geht also nicht unbedingt darum, so viele Daten wie möglich zu horten, sondern mehr darum aus dem, was man hat, verwendbare Informationen abzuleiten.

Welche Tools es mittlerweile für die Verarbeitung (mit Schwerpunkt Microsoft) gibt, folgt in Kürze im nächsten Artikel unserer Big Data Serie.

google_about_ebiz fb_about_ebiztwitter_about_ebizxing_about_ebiz
ebiz_consulting_expertise