Page Content
Aktuelles
- Anmeldung für das Projekt freigeschaltet. (Anmeldung über das System von DIMA).
- Die Lehrveranstaltung wird in Zusammenarbeit mit dem Fachgebiet DIMA angeboten
- Dieses Projekt ist auf insgesamt 12 (6 pro Fachgebiet) Teilnehmer begrenzt.
- Der Veranstaltung kann in den entsprechenden Modulen von CIT oder alternativ DIMA eingebracht werden
- Die Teilnahme erfordert eine vorherige Anmeldung über das Anmeldesystem von DIMA
- Die endgültige Liste der Teilnehmer wird beim ersten Gruppentreffem am 20. Oktober festgelegt
Inhalt
Die Menge der weltweit verfügbaren digitalen Daten wächst täglich mit einem rasanten Tempo. Insbesondere große Internetfirmen oder wissenschaftliche Einrichtungen sehen sich mit immer größeren Datenmengen konfrontiert, die sich nur noch durch den Einsatz riesiger Cluster und einer massiv-parallelen Verarbeitung effizient analysieren lassen.
Die Fachgebiete DIMA und CIT entwickelt aktuell eine neuartige Plattform für derartige massiv-parallele Datenverarbeitung. Im Zentrum dieser neuen Plattform steht die Erweiterung bestehender Programmiermodelle wie z.B. MapReduce sowie eine effiziente Ausführung der Anfragen auf einer Compute Cloud. Anwendungen für dieses System kommen z.B. aus dem Bereich Klimavorhersagen, Social-Network Analysen oder Web-Data Mining.
Das System existiert z.Z. in einer prototypischen Implementierung. Es steht im Wettbewerb zu Systemen diverser anderer Einrichtungen, die ebenfalls Referenzarchitekturen für solche massiv-parallele Datenanalyse der nächsten Generation etablieren wollen, z.B. Facebook, Yahoo!, Microsoft und die US Universitäten Berkeley und Irvine.
Im Rahmen dieses Projekts soll die Anfragesprache JAQL in den bestehenden Prototypen integriert werden. JAQL wird z.Z. von IBM als Plattform für die Analyse großer Mengen von semi-strukturierten Daten und zum Trainieren von Machine-Learning Modellen entwickelt. Aktuell wird für die Auswertung der Anfragen das Open Source MapReduce Framework Apache Hadoop verwendet. Durch die Integration mit dem neu entwickelten System ergeben sich jedoch interessante Optimierungsmöglichkeiten, die das System sowohl performanter als auch autonomer (self tuning) machen.
Die Lehrveranstaltung wird in Zusammenarbeit mit dem Fachgebiet DIMA angeboten.
Allgemeines
- Das Projekt ist auf 12 Teilnehmer (6 pro Fachgebiet) begrenzt
- Diese Lehrveranstaltung umfasst 6 SWS bzw. 9 LP
- Die Veranstaltung richtet sich an Diplom-Studierende im Hauptstudium im Studiengang Informatik oder Technische Informatik (ab 5. Semester), sowie Masterstudenten ab dem 1. Semester und ist Teil des Moduls CIT12 (MINF-KT-PJVS). Alternativ kann die Veranstaltung in die entsprechenden Module des Fachgebiets DIMA eingebracht werden.
Zielgruppe
Das Projekt richtet sich an Diplom-Studierende im Studiengang Informatik oder Technische Informatik. sowie Masterstudenten ab dem 1. Semester.
Voraussetzungen
Voraussetzung für die Teilnahme am Projekt sind fundierte Kenntnisse der Programmiersprache Java. Ebenfalls wünschenswert sind Grundkenntnisse im Bereich von Datenbanken und verteilten Systemen wie sie z.B. durch die Lehrveranstaltungen "MPGI 5" oder "Verteilte Systeme" vermittelt werden.
Lernziele
- Wissenschaftliche Bearbeitung eines Projektes
- Kennenlernen von praxisrelevanten Problemen der Informatik
- Umsetzung erlernter theoretischer Erkentnisse an praktischen Problemen
- Problemlösung durch Konzeption und Programmierung
- Erfolgreiches Arbeiten im Team
Ablauf
- Vorbesprechung zum persönlichen Kennenlernen und Erörterung der Projektaufgabe
- Bearbeitung der Projektaufgabe in regelmäßigen Treffen
- Konzeption und Programmierung in Kleingruppen
- Koordination und Zusammenführung von Teilergebnissen
- Präsentation von Zwischen- und Endergebnissen (ca. 4 Termine)
- Erstellung schriftlicher Berichte