Page Content
Entwicklung und Evaluation von flüchtigen Checkpoints als Verfahren zur Verbesserung der Ausfallsicherheit in verteilten Datenflussprogrammen
Zusammenfassung
Die Menge der weltweit verfügbaren digitalen
Daten wächst täglich in einem rasanten Tempo. Allein der Zuwachs an
so genanntem „User Generated Content“ im Internet beträgt mehr
als 2 GByte pro Tag. Große Internetfirmen wie Google oder Yahoo!
haben deswegen Frameworks für die Verarbeitung dieser riesigen
Datenmengen entwickelt, die auf dem Einsatz großer Cluster und einer
massiv-parallelen Verarbeitung basieren.
Die Jobs, die
mithilfe dieser neuen Frameworks abgearbeitet werden, laufen mitunter
mehrere Tage und erstrecken sich über hunderte von Rechenknoten.
Strategien zur Ausfallsicherheit, z.B. zur Kompensation einzelner
Knotenausfälle, stellen aus diesem Grund ein interessantes
Forschungsthema dar.
Der Lehrstuhl für komplexe und
verteilte IT-Systeme arbeitet zurzeit an einem eigenen Framework für
massiv-parallele Datenverarbeitung, das auf den Einsatz in Cloud
Computing Umgebungen optimiert ist. Die grundlegende
Verarbeitungsabfolge eines Jobs wird dabei durch einen gerichteten
azyklischen Graphen (im Englischen kurz DAG) beschrieben.
Im Rahmen dieser Diplomarbeit sollen Strategien zur Verbesserung
der Ausfallsicherheit des Frameworks erarbeitet und implementiert
werden. Insbesondere soll untersucht werden, wie flüchtige
Checkpoints dazu genutzt werden können, die Ausfallsicherheit von
verteilten Datenflussprogrammen zu verbessern.