Was ist Hadoop und wofür brauch ich das?

Hadoop Auch wenn ich den Namen Hadoop schon öfter mal gelesen hab, muss ich zugeben, dass ich bisher nicht wirklich wusste, was sich eigentlich dahinter verbirgt.

Nun hab ich mich mal ein bisschen informiert und ich bin echt überrascht, wer alles dieses Open Source Framework in der Praxis nutzt.

Große Datenmengen analysieren

Eines gleich vorweg: Hadoop ist nicht für den Hausgebrauch. Hadoop ist ein Framework, um große, wirklich große Datenmengen zu analysieren.

Einige von Euch haben sicher schon mal was von BI, also Business Intelligence, gehört. Das sind Tools, um Datenmengen komfortabel zu analysieren. Hadoop macht dies auch, aber eben für sehr große Mengen von Daten. Dies kann bis zu mehreren 100 Terabyte gehen.

Als größte Hadoop-Datenbank zählt die Datenbank von Facebook, die schon über 21 Petabyte besitzt. Das sind Größen, die kann ich persönlich mit meinen Erfahrungen von normalen ERP-Systemen nicht mehr wirklich fassen.

Aber zurück zum Thema: Hadoop ist ein auf Java basierendes Open Source Projekt, welches aus verschiedenen Komponenten besteht. Hierzu gehört beispielsweise das Dateisystem „Hadoop Distributed File System“ (HDFS), welches zur Speicherung von sehr großen Datenmengen geeignet ist. Wikipedia spricht von mehreren 100 Mio Dateien.

Hinzu kommt noch Hive, welches mit QL eine SQL basierende Anfragesprache mitbringt. Weiter gibt es noch HBase, eine Datenbank, die hauptsächlich zum Ablegen und Verwalten von großen aber relativ statischen Datenmengen dient, sowie noch einige weitere Komponenten, die Ihr etwas näher erklärt auch auf Wikipedia findet.

Hadoop in der Praxis

Wer wie ich noch nicht zuvor mit Hadoop zu tun hatte, wird sich wundern, wer alles damit arbeitet. Neben den bereits erwähnten Facebook-Betreibern arbeitet auch Yahoo oder auch Ebay mit dem Framework. Aber auch AOL und etliche mehr haben Hadoop im Einsatz.

Auf YouTube hab ich ein interessantes Video zu diesem Thema gefunden. In diesem spricht der IT-Consult und Software-Architekt Bernd Fondermann über Hadoop, der mit dem Framework auch in der Praxis arbeitet.

Er gibt in dem Video ein paar Einblicke, was man damit so anstellen kann und welche Komponenten noch so zum Hadoop-Universium gehören.

Was ersetzt Hadoop?

Hadoop wird meistens nicht eingesetzt, um bestehende Techniken zu ersetzten. Es wird meist als Ergänzung eimplementiert. So werden meistens trotzdem noch beispielsweise SQL-Datenbanken genutzt, die das operative Speichern, Ändern und Löschen von Daten übernehmen. Das Analysieren und Verarbeiten dieser Daten wird dann aber von Hadoop durchgeführt.

Hierzu gehören beispielsweise das Analysieren von unstrukturierte Daten aus sozialen Netzwerken (siehe Facebook). Aber auch das Auswerten von Logfiles wird gerne Hadoop übertragen.

Fazit

Auch wenn wir in unserem Unternehmen auch mit BI zu tun haben, so kommt der Einsatz von Hadoop noch nicht in Frage.

Und das Aufsetzen und Integrieren von Hadoop in eine bestehende Infrastruktur zum Testen soll auch nicht ohne sein (man siehe nur alleine die unterschiedlichen Komponenten), so dass man es auch nicht „mal eben“ testen kann. Schade, denn neugierig bin ich beim Recherieren schon geworden.

Ihr wollt mehr von Hadoop wissen? Hier geht es zu der Hadoop-Website.

Was ist mit Euch? Kanntet Ihr schon Hadoop?