Inhalt des Dokuments
Ereignis | Termin | Raum | Dozent |
---|---|---|---|
Vorbesprechung | 14.10.2015 um 16:00 Uhr | EN 152 | Thamsen Renner Kao |
Wöchentliche Treffen | Mittwochs um 16:00 Uhr | EN 152 | Thamsen Renner |
Servicevortrag | 12.11.2015 um 16:00 Uhr | EN 058 | Thamsen |
Zwischenpräsentation | 16.12.2015 um 16:00 Uhr | EN 152 | |
Abschlusspräsentation | 24.02.2016 um 16:00 Uhr | EN 152 | |
Endabgabe | bis 30.03.2016 um 23:59 Uhr |
Aktuelles
- Das Projekt ist auf 12 Teilnehmer begrenzt und die Teilnahme erfordert eine vorherige Anmeldung. Die Anmeldung erfolgt per Email an den Ansprechpartner. Die endgültige Liste der Teilnehmer wird beim ersten Gruppentreffen festgelegt.
- Die Anmeldung im QISPOS muss bis 25.11. um 23.59 Uhr erfolgen.
Inhalt
Für die Analyse sehr großer Datenmengen kommen skalierbare Systeme zum Einsatz, die parallel Daten auf Hunderten Rechnern gleichzeitig verarbeiten. Diese Klasse verteilter Systeme schließt unter anderem Google’s MapReduce, Microsoft’s Dryad sowie die Apache Projekte Storm und Flink mit ein. Diese Systeme zeichnen sich neben ihrer guten Skalierbarkeit auch durch eine hohe Fehlertoleranz aus, die bei großen Clustern aus Commodity Hardware nötig ist. Auch ist eine deutliche Entwicklung hin zu einer besseren Programmierbarkeit zu beobachten: Einfache deklarative Programmiermodelle, automatische Planoptimierung sowie fluent-APIs in immer mehr Programmiersprachen erlauben es Entwicklern sich ganz auf die Erstellung ihrer Analyseprogramme zu konzentrieren. Die Systeme machen es also für Entwickler einfacher Programme zu schreiben, die effizient und zuverlässig große Mengen Daten parallel in Rechenclustern analysieren.
Gleichzeitig ist die Analyse großer Datensätze häufig Aufgabe von Domänenexperten, die ohne große Programmierkenntnisse und explorativ neue Datensätze analysieren müssen. Ziel dieses Masterprojekts ist deshalb die Entwicklung einer webbasierten visuellen Programmierumgebung. In dieser Programierumgebung soll der Benutzer mittels graphischer Elemente Datenflussprogramme interaktiv zusammensetzen und ausführen können.
Weitere Details werden in der ersten Veranstaltung am 14.10. bekanntgegeben. Es ist eine vorherige Anmeldung per Email an lauritz.thamsen<at>tu-berlin.de erforderlich. Alle weiteren Termine werden während der ersten Veranstaltung abgestimmt.
Allgemeines
- Das Projekt ist auf 12 Teilnehmer begrenzt
- Diese Lehrveranstaltung umfasst 6 SWS bzw. 9 LP
- Die Veranstaltung richtet sich an Masterstudenten ab dem 1. Semester und ist Teil des Moduls CIT11 (MINF-KT-PJVS).
Ablauf
- Vorbesprechung zum persönlichen Kennenlernen und Erklärung der Projektaufgabe
- Eigenständige Einarbeitung in die skalierbare Datenanalyse mit Apache Flink am Beispiel von echten Datensätzen
- Entwicklung eines Prototypen unter Verwendung agiler Softwarepraktiken und entsprechender Werkzeugen
- Verwendung eines echten Clusters zum Testen und zur Evalierung
- Präsentation der Ergebnisse in einer Zwischen- und einer Abschlusspräsentation
- Erstellung eines wissenschaftlichen Artikels (bei einem herausragenden Ergebnis kann der Artikel auf einer Konferenz eingereicht werden)
Lernziele
- Wissenschaftliche Untersuchung eines Problems, inklusive Entwicklung eines Ansatzes sowie dessen prototypische Umsetzung und Evaluierung
- Kennenlernen von praxisrelevanten Problemen der Informatik
- Problemlösung durch Konzeption und Programmierung
- Erfolgreiches Arbeiten und Softwareentwicklung im Team
Voraussetzungen
Inhaltlich werden Kenntnisse aller Pflichtmodule im Grundlagenstudium (1. - 4. Semester) Informatik oder Technische Informatik sowie der sichere Umgang mit mindestens einer objekt-orientierten Programmiersprache vorausgesetzt. Kenntnisse aus den Modulen „Verteilte Systeme“ und „Cloud Computing“ sind von Vorteil.