"Guter Trojaner" für die Suche
Um die riesigen Datenmengen zu durchsuchen, die z.B. bei Facebook oder Twitter anfallen, setzen viele Unternehmen auf das freie Java-Framework Hadoop, welches auf dem bekannten MapReduce-Algorithmus von Google basiert und es ermöglicht, intensive Rechenprozesse mit grossen Datenmengen (im Petabyte-Bereich) auf Computerclustern durchzuführen. Datenbank-Spezialisten kritisieren jedoch, dass mit Hadoop eine effiziente Datensuche mit komplexen Anforderungen nicht möglich sei. Informatiker der Uni Saarbrücken haben nun ein neues Vefahren namens Hadoop++ entwickelt.
Um den täglichen Datenmengen Herr zu werden, hat Google das Programmiermodell MapReduce entwickelt. Dabei werden Daten in kleine Teile zerlegt und dann zur gleichzeitigen Verarbeitung auf unterschiedliche Rechner verteilt. Das als Open Source-Produkt angebotene Hadoop-Framework basiert auf der Idee von MapReduce. Als Google sich im letzten Jahr MapReduce patentrechtlich schützen liess, erhielt Hadoop davon eine freie Lizenz und kann somit auch weiterhin kostenlos eingesetzt werden.
Hintergrund der Kritik
Die Diskussion um Stärken und Schwächen von MapReduce und Hadoop wurde vor allem unter amerikanischen Informatik-Professoren geführt. Viele, die sich intensiv mit Datenbank-Modellen auseinandersetzen und es gewohnt sind, mit SQL zu arbeiten, "betrachten MapReduce aber als grossen Rückschritt in die Datenbank-Steinzeit", Jens Dittrich, Professor für Informationssysteme der Universität des Saarlandes. "Viele Erkenntnisse aus der Datenbankforschung der vergangenen Jahrzehnte sind bei MapReduce einfach über Bord geworfen worden. Zwar kann man mit Hilfe von MapReduce riesige Datenmengen unkompliziert durchsuchen, aber man tut dies nicht besonders effizient."
Dennoch fanden MapReduce und Hadoop eine weite Verbreitung. Ihre Stärke liegt nämlich in der einfachen Bedienung: Die User müssen weder eine komplizierte Datenbanksprache noch ein Datenmodell lernen. Ausserdem ist die Administration von Hadoop sehr einfach. Auch mit geringen Computerkenntnissen kann man damit auf einfache Weise viele Milliarden Datensätze parallel auf mehreren Servern durchsuchen. Wer jedoch komplizierte Suchanfragen in Hadoop nutzen will, stösst schnell an Leistungsgrenzen. Hadoop ist im Vergleich zu modernen Datenbanksystemen einfach zu langsam.
Hadoop++: ein Trojaner
Abhilfe soll hier Hadoop++ leisten, dass ähnlich wie ein trojanisches Pferd funktioniert. Die Forscher schleusen an geeigneten Stellen von Hadoop zusätzlichen Code ein, der für eine effizientere Ausführung sorgt. Das zugrundeliegende System Hadoop bleibt dabei unverändert, es sind also keine aufwändigen Änderungen am Code von Hadoop notwendig. Alle Änderungen erfolgen durch sogenannte Nutzerfunktionen (user-defined functions).
Quellen: innovations-report.de, uni-saarland.de
Kommentare
Dieser Artikel wurde noch nicht kommentiert.
Einen Kommentar verfassen
* = benötigte Eingabe