Inhalt des Dokuments
Es gibt keine deutsche Übersetzung dieser Webseite.
Design und Evaluation von Feedback-basierten Schedulingstrategien für massiv-parallele Datenverarbeitung in Clouds
Zusammenfassung
Cloud Computing ist derzeit ein heiß diskutiertes
Schlagwort im Bereich der Informatik, das unter vielen Aspekten
begriffen und interpretiert werden kann. Cloud Computing ermöglicht
es Unternehmen ohne eigene IT-Infrastruktur schnell und flexible eine
skalierbare, virtuelle IT-Infrastruktur zu mieten. Die Abrechnung der
Resourcen erfolgt dabei nach dem „Pay-as-you-go“ Prinzip, d.h. der
Kunde zahlt am Ende lediglich für die Zeit, die er die Infrastruktur
auch benutzt hat und geht darüberhinaus keinerlei Verpflichtungen
ein.
Ein zunehmend populär werdender Anwendungsfall für
Clouds ist die massiv-parallele Daten-verarbeitung mit Hilfe von
Frameworks wie Hadoop. Die New York Times z.B. hat unlängst ihr 4 TB
großes Artikelarchiv mittels Hadoop in PDF Dateien konvertiert und
benötigte dazu weniger als 24 Stunden mit 100 Instanzen (virtuellen
Maschinen) in der Amazon EC2 Cloud.
Die bekannten
Frameworks für massiv-parallele Datenverarbeitung stammen jedoch aus
dem Bereich des Cluster Computings und nutzen die besonderen
Möglichkeiten einer Cloud noch nicht aus. So ist es z.B. unklar, wie
die unterschiedlichen Instanzgrößen einer Compute Cloud optimal
genutzt werden können, um so eine schnellere und damit auch
kostengünstigere Verarbeitung zu erreichen.
Aus diesem
Grund sollen im Rahmen dieser Diplom-/Masterarbeit
Schedulingstrategien für die massiv-parallele Datenverarbeitung
entwickelt und erprobt werden, die die speziellen Gegebenheiten einer
Cloud explizit ausnutzen.