The Machine Learning of Time and Dynamics for Vision, Sciences, Engineering

Dr. Efstratios Gavves is an Associate Professor at the University of Amsterdam teaching Deep Learning at the MSc in AI, an ELLIS Scholar, and co-founder of Ellogon.AI. He is a director of the QUVA Deep Vision Lab with Qualcomm, and the POP-AART Lab with the Netherlands Cancer Institute and Elekta. Efstratios received the ERC Career Starting Grant 2020 and NWO VIDI grant 2020 to research on the Computational Learning of Time for spatiotemporal sequences and video. His background is in computer vision, and now focusing on temporal machine learning and dynamical systems, efficient computer vision, and machine learning for oncology. He is currently supervising 15 PhD students on various topics pertaining theory and applications of Deep Learning and Computer Vision, including neural network, dynamical dystems, and physical laws in learning algorithms, causal and object-centric representation learning, open-world video understanding, deep probabilistic and generative models, deep learning geometry, and applications to histopathological analysis and to adaptive radiotherapy.

Ακολουθεί σύντομη περιγραφή

Visual artificial intelligence automatically interprets what happens in visual data like videos. Today’s research strives with queries like: “Is this person playing basketball?”; “Find the location of the brain stroke”; or “Track the glacier fractures in satellite footage”. All these queries are about visual observations already taken place. Today’s algorithms focus on explaining past visual observations. Naturally, not all queries are about the past: “Will this person draw something in or out of their pocket?”; “Where will the tumour be in 5 seconds given breathing patterns and moving organs?”; or, “How will the glacier fracture given the current motion and melting patterns?”. For these queries and all others, the next generation of visual algorithms must expect what happens next given past visual observations. Visual artificial intelligence must also be able to prevent before the fact, rather than explain only after it. In this talk, I will present my vision on what these algorithms should look like, and investigate possible synergies with other fields of science, like biomedical research, astronomy and others. Furthermore, I will present some recent works and applications in this direction.

Η τεχνητή νοημοσύνη που σχετίζεται με την αντίληψη και επεξεργασία οπτικών ερεθισμάτων εστιάζει στο να ερμηνεύει δεδομένα όπως εικόνες ή βιντεο και να απαντάει ερωτήματα όπως “Ποιο άθλημα βλέπουμε στο βίντεο;” ή “Εντόπισε το αιμάτωμα στον εγκέφαλο” ή “Υπολόγισε την τροχιά του παγετώνα όπως μετακινούνται στα δορυφορικά δεδομένα”. Όλες αυτές οι ερωτήσεις είναι παρελθοντικές και η τρέχουσα έρευνα της μηχανικής μάθησης γενικότερα εστιάζει στο να αναλύει παρελθοντικά ερωτήματα και δεδομένα. Ωστόσο, υπάρχουν πολλά και ενδιαφέροντα ερωτήματα που σχετίζονται με την πρόγνωση, δηλαδή με την ανάλυση τρέχουσων πολυδιάστατων χρονοσειρών με σκόπο την πρόβλεψη μέλλοντων γεγονότων, όπως αν κάποιος θα βάλει ή θα βγάλει ένα αντικείμενο από την τσέπη του στο βίντεο, που θα βρίσκεται ο όγκος στα επόμενα 5 δευτερόλεπτα δεδομένου του μοτίβου αναπνοής και της θέση των οργάνων, ή πως θα διασπαστεί ο παγετώνας δεδομένης της τωρινής κίνησης και του ρυθμού τήξης. Για αυτά και άλλα παρόμοιου είδους ερωτήματα η επόμενη γενιά αλγορίθμων τεχνητής νοημοσύνης θα πρέπει να μπορεί να κάνει μελλοντικές προβλέψεις δεδομένων παρελθοντικών οπτικών δεδομένων, έτσι ώστε να έχουμε τεχνητή νοημοσύνη που όχι απλώς να ερμηνεύει εκ των υστέρων, αλλά και να προβλέπει εκ των προτέρων. Στην ομιλία αυτή, θα περιγράψω το status quo της τεχνητής νοημοσύνης, το πως θα πρέπει αυτό να αλλάξει για να αποκτήσουμε αλγόριθμους που αντιλαμβάνονται τον χρόνο με μεγαλύτερη επιτυχία, με εφαρμογές στην υπολογιστική όραση και σε επιστημονικά δεδομένα, καθώς και την πρόσφατη μου έρευνα προς την κατεύθυνση αυτή.