Διαχείριση Δεδομένων Μεγάλου Όγκου

Course ID
ΠΜΣ1-4
Κατεύθυνση
1η, 2η, 3η
Εξάμηνο
Εαρινό
Τύπος
Επιλογής 1ης κατεύθ., Επιλογής 3ης κατεύθ., Υποχρεωτικό 2ης κατεύθ.

Μαθησιακά Αποτελέσματα

Οι σύγχρονες εφαρμογές στο διαδίκτυο έχουν δημιουργήσει την ανάγκη της καθημερινής διαχείρισης τεράστιων ποσοτήτων δεδομένων. Η επαναλαμβανόμενη εκτέλεση υπολογιστικών διεργασιών σε ποσότητες δεδομένων που δεν χωρούν στην μνήμη, δεν είναι εύκολο να αντιμετωπιστεί με παραδοσιακές τεχνικές. Το μάθημα προσφέρει στους σπουδαστές τις απαραίτητες γνώσεις και δεξιότητες που απαιτούνται για την επίλυση προβλημάτων που αφορούν μεγάλου όγκου δεδομένων που δεν χωρούν στην μνήμη. Το μάθημα είναι χωρισμένο σε δύο μέρη. Στο πρώτο μέρος περιγράφεται η αρχιτεκτονική σύγχρονων κατανεμημένων συστημάτων διαχείρισης μεγάλου όγκου δεδομένων και στο δεύτερο μέρος περιγράφονται αλγοριθμικές τεχνικές. Όλα τα παραδείγματα βασίζονται σε μελέτες περιπτώσεων με την χρήση εργαλείων ανοικτού κώδικα.

Περιεχόμενο Μαθήματος

1η εβδομάδα Διάλεξη: Εισαγωγή σε μεγάλου όγκου δεδομένα. Σύγχρονα υπολογιστικά μοντέλα. Σύγχρονα μοντέλα αποθήκευσης.
2η εβδομάδα Διάλεξη: Εισαγωγή σε σύγχρονα κατανεμημένα συστήματα.
3η εβδομάδα Διάλεξη: Κατανεμημένα συστήματα αρχείων μεγάλης κλίμακας και η πλατφόρμα MapReduce για παράλληλους υπολογισμούς.
4η εβδομάδα Εργαστήριο: Πρακτική εφαρμογή. Το σύστημα Hadoop.
5η εβδομάδα Διάλεξη: Αρχιτεκτονική του συστήματος Spark και υλοποίηση αλγορίθμων με RDDs.
6η εβδομάδα Διάλεξη: Επεξεργασία δεδομένων με τη γλώσσα προγραμματισμού Scala σε Spark.
7η εβδομάδα Εργαστήριο: Πρακτική εφαρμογή. Το σύστημα Spark.
8η εβδομάδα Διάλεξη: Βασικοί αλγόριθμοι με MapReduce και Spark. Υψηλού επιπέδου γλώσσες για ανάλυση δεδομένων. 
9η εβδομάδα Διάλεξη: Ανάλυση οντοτήτων σε Spark.
10η εβδομάδα Διάλεξη: Διαχείριση πόρων σε κατανεμημένα συστήματα: YARN, Mesos, Kubernetes.
11η εβδομάδα Διάλεξη: Διαχείριση ροών δεδομένων: Spark Structured Streaming.
12η εβδομάδα: Παρουσίαση εργασιών φοιτητών.
13η εβδομάδα: Παρουσίαση εργασιών φοιτητών.

ΓΕΝΙΚΕΣ ΙΚΑΝΟΤΗΤΕΣ

Αναζήτηση, ανάλυση και σύνθεση δεδομένων και πληροφοριών, με τη χρήση και των απαραίτητων τεχνολογιών

Προσαρμογή σε νέες καταστάσεις

Λήψη αποφάσεων

Αυτόνομη εργασία

Ομαδική εργασία

Προαγωγή της ελεύθερης, δημιουργικής και επαγωγικής σκέψης

ΔΙΔΑΚΤΙΚΕΣ ΚΑΙ ΜΑΘΗΣΙΑΚΕΣ ΜΕΘΟΔΟΙ - ΑΞΙΟΛΟΓΗΣΗ

Τρόπος Παρακολούθησης: Δια ζώσης 

Χρήση Τεχνολογιων Πληροφορίας και Επικοινωνιών: eclass, estudies

Δραστηριότητα Φόρτος Εργασίας
Εξαμήνου
Παρακολούθηση διαλέξεων 26
Εργαστηριακή Άσκηση 12
Ατομικές ή Ομαδικές Εργασίες 60
Αυτοτελής μελέτη 52
Σύνολο 150

ΑΞΙΟΛΟΓΗΣΗ ΦΟΙΤΗΤΩΝ

Ι. Γραπτή τελική εξέταση 50% που περιλαμβάνει:
– Ερωτήσεις πολλαπλής επιλογής
– Επίλυση προβλημάτων
– Συγκριτική αξιολόγηση στοιχείων θεωρίας
II. Ατομικές εργασίες 30% που αξιολογούνται σε δύο στάδια: περιγραφή της προτεινόμενης
προσέγγισης, υλοποίηση.
ΙΙΙ. Ομαδικές εργασίες 20%: παρουσίαση επιλεγμένων ερευνητικών εργασιών

ΣΥΝΙΣΤΩΜΕΝΗ ΒΙΒΛΙΟΓΡΑΦΙΑ

Jure Leskovec, Anand Rajaraman, Jeff Ullman: Mining of Massive Datasets. Cambridge
University Press 2020.
Sandy Ryza, Uri Laserson, Sean Owen, Josh Wills. Advanced Analytics With Spark: Patterns
for Learning from Data at Scale. O’Reilly Media 2017
Jacek Laskowski. Apache Spark Internals. [Online] 2023
The International Journal on Very Large Data Bases (VLDBJ)
Proceedings of the VLDB Endowment (PVLDB)
IEEE Transactions on Big Data
IEEE Transactions on Knowledge and Data Engineering (TKDE)