Page Content
Zusammenfassung
Die Menge der weltweit verfügbaren digitalen
Daten wächst täglich in einem rasanten Tempo. Allein der Zuwachs an
so genanntem „User Generated Content“ im Internet beträgt mehr
als 2 GByte pro Tag. Große Interentfirmen wie Google oder Yahoo!
haben deswegen neue Modelle für die Verarbeitung riesiger Datenmengen
entwickelt, das auf dem Einsatz riesiger Cluster und einer
massiv-parallelen Verarbeitung basiert. Der wohl populärste Vertreter
dieser neuen Programmiermodelle ist Googles MapReduce.
Der
Lehrstuhl für komplexe und verteilte IT-Systeme arbeitet zur Zeit an
einem eigenen Framework für massiv-parallele Datenverarbeitung, das
auf den Einsatz in Cloud Computing Umgebungen optimiert ist. Anders
als bei Hadoop wird die grundlegende Verarbeitungsabfolge durch einen
gerichteten azyklischen (im Englischen kurz DAG) beschrieben. Um
allerdings weiterhin Programme, die im MapReduce Paradigma formuliert
sind, verarbeiten zu können, ist es das Ziel dieser Bachelorarbeit
eine Abbildung von den Hadoop Operatoren Map, Sort und Reduce auf
einen DAG zu entwickeln und für eine verteilte Ausführung zu
implementieren.