Διαχείριση Δεδομένων Μεγάλου Όγκου

Course ID
ΠΜΣ1-4
Κατεύθυνση
1η, 2η, 3η
Εξάμηνο
Εαρινό
Τύπος
Επιλογής 2ης κατεύθ., Επιλογής 3ης κατεύθ., Υποχρεωτικό 1ης κατεύθ.

Μαθησιακά Αποτελέσματα

Οι σύγχρονες εφαρμογές στο διαδίκτυο έχουν δημιουργήσει την ανάγκη της καθημερινής διαχείρισης τεράστιων ποσοτήτων δεδομένων. Η επαναλαμβανόμενη εκτέλεση υπολογιστικών διεργασιών σε ποσότητες δεδομένων που δεν χωρούν στην μνήμη, δεν είναι εύκολο να αντιμετωπιστεί με παραδοσιακές τεχνικές. Το μάθημα προσφέρει στους σπουδαστές τις απαραίτητες γνώσεις και δεξιότητες που απαιτούνται για την επίλυση προβλημάτων που αφορούν μεγάλου όγκου δεδομένων που δεν χωρούν στην μνήμη. Το μάθημα είναι χωρισμένο σε δύο μέρη. Στο πρώτο μέρος περιγράφεται η αρχιτεκτονική σύγχρονων κατανεμημένων συστημάτων διαχείρισης μεγάλου όγκου δεδομένων και στο δεύτερο μέρος περιγράφονται αλγοριθμικές τεχνικές. Όλα τα παραδείγματα βασίζονται σε μελέτες περιπτώσεων με την χρήση εργαλείων ανοικτού κώδικα.

Περιεχόμενο Μαθήματος

1η εβδομάδα Διάλεξη: Εισαγωγή σε μεγάλου όγκου δεδομένα. Σύγχρονα υπολογιστικά μοντέλα. Σύγχρονα μοντέλα αποθήκευσης.
2η εβδομάδα Διάλεξη: Εισαγωγή σε σύγχρονα κατανεμημένα συστήματα.
3η εβδομάδα Διάλεξη: Κατανεμημένα συστήματα αρχείων μεγάλης κλίμακας και η πλατφόρμα MapReduce για παράλληλους υπολογισμούς.
4η εβδομάδα Εργαστήριο: Πρακτική εφαρμογή. Το σύστημα Hadoop.
5η εβδομάδα Διάλεξη: Αρχιτεκτονική του συστήματος Spark και υλοποίηση αλγορίθμων με RDDs.
6η εβδομάδα Διάλεξη: Επεξεργασία δεδομένων με τη γλώσσα προγραμματισμού Scala σε Spark.
7η εβδομάδα Εργαστήριο: Πρακτική εφαρμογή. Το σύστημα Spark.
8η εβδομάδα Διάλεξη: Βασικοί αλγόριθμοι με MapReduce και Spark. Υψηλού επιπέδου γλώσσες για ανάλυση δεδομένων. 
9η εβδομάδα Διάλεξη: Ανάλυση οντοτήτων σε Spark.
10η εβδομάδα Διάλεξη: Διαχείριση πόρων σε κατανεμημένα συστήματα: YARN, Mesos, Kubernetes.
11η εβδομάδα Διάλεξη: Διαχείριση ροών δεδομένων: Spark Structured Streaming.
12η εβδομάδα: Παρουσίαση εργασιών φοιτητών.
13η εβδομάδα: Παρουσίαση εργασιών φοιτητών.

ΓΕΝΙΚΕΣ ΙΚΑΝΟΤΗΤΕΣ

Αναζήτηση, ανάλυση και σύνθεση δεδομένων και πληροφοριών, με τη χρήση και των απαραίτητων τεχνολογιών

Προσαρμογή σε νέες καταστάσεις

Λήψη αποφάσεων

Αυτόνομη εργασία

Ομαδική εργασία

Προαγωγή της ελεύθερης, δημιουργικής και επαγωγικής σκέψης

ΔΙΔΑΚΤΙΚΕΣ ΚΑΙ ΜΑΘΗΣΙΑΚΕΣ ΜΕΘΟΔΟΙ - ΑΞΙΟΛΟΓΗΣΗ

Τρόπος Παρακολούθησης: Δια ζώσης 

Χρήση Τεχνολογιων Πληροφορίας και Επικοινωνιών: eclass, estudies

Δραστηριότητα Φόρτος Εργασίας
Εξαμήνου
Παρακολούθηση διαλέξεων 26
Εργαστηριακή Άσκηση 12
Ατομικές ή Ομαδικές Εργασίες 60
Αυτοτελής μελέτη 52
Σύνολο 150

ΑΞΙΟΛΟΓΗΣΗ ΦΟΙΤΗΤΩΝ

Jure Leskovec, Anand Rajaraman, Jeff Ullman: Mining of Massive Datasets. Cambridge University Press 2020.
Sandy Ryza, Uri Laserson, Sean Owen, Josh Wills. Advanced Analytics With Spark: Patterns for Learning from Data at Scale. O’Reilly Media 2017
Jacek Laskowski. Apache Spark Internals. [Online] 2023 

The International Journal on Very Large Data Bases (VLDBJ)
Proceedings of the VLDB Endowment (PVLDB)
IEEE Transactions on Big Data
IEEE Transactions on Knowledge and Data Engineering (TKDE)

ΣΥΝΙΣΤΩΜΕΝΗ ΒΙΒΛΙΟΓΡΑΦΙΑ

1. Ian Goodfellow, Yoshua Bengio and Aaron Courville, “Deep Learning”, MIT Press, 2016 https://www.deeplearningbook.org/
2. Stuart Russell and Peter Norvig , “Artificial Intelligence: A Μodern Approach”, Pearson, 4th Edition (2020)
3. Timothy Chou, “Precision: Principles, Practices and Solutions for the Internet of Things”, 2016

Περιοδικά (ενδεικτικά):

IEEE Transactions on Pattern Analysis and Machine Intelligence
IEEE Transactions on Neural Networks and Learning Systems
Engineering Applications of Artificial Intelligence
Expert Systems with Applications
Journal of Machine Learning Research
Journal of Artificial Intelligence Research
Neural Computing and Applications
International Journal of Computer Vision

Συνέδρια (ενδεικτικά):

Neural Information Processing Systems
International Conference on Learning Representations
AAAI Conference on Artificial Intelligence
Computer Vision and Pattern Recognition
International Conference on Computer Vision
International Joint Conference on Artificial Intelligence