Είσοδος

Εξόρυξη Γνώσης από Δεδομένα

Γενικά στοιχεία

 

 
Περιγραφή

Το μάθημα αναφέρεται στις μεθοδολογίες εξόρυξης γνώσης από δεδομένα. Η εξόρυξη γνώσης από δεδομένων έχει ως στόχο την ανακάλυψη γνώσης μέσα από μεγάλους όγκους δεδομένων χρησιμοποιώντας τεχνικές από τη Μηχανική Μάθηση, τις Βάσεις Δεδομένων, τη Στατιστική και άλλους κλάδους. Θα μελετηθούν τεχνικές εξόρυξης δεδομένων για δομημένα δεδομένα τα οποία συμμορφώνονται με ένα σαφώς καθορισμένο σχήμα και με αδόμητα δεδομένα. Ειδικά θέματα μαθήματος περιλαμβάνουν την ανακάλυψη μοτίβων, την ανάλυση και την οπτικοποίηση δεδομένων.

Οι διαλέξεις, για το ακαδημαϊκό έτος 2018-2019, θα γίνονται στην αίθουσα 004 και στην αίθουσα Α4 στα PC Labs στο Ν. Κτ. Ηλεκτρολόγων, κάθε Δευτέρα στις 9:45-12:30. 

 

Ύλη

Εισαγωγή: Τι είναι η εξόρυξη γνώσης από δεδομένα, Σχετικές τεχνολογίες: Στατιστική, Μηχανική Μάθηση, DBMS, OLAP, Στόχοι και στάδια της εξόρυξης γνώσης, Τεχνικές εξόρυξης γνώσης, Μέθοδοι αναπαράστασης γνώσης.

Προεπεξεργασία δεδομένων: Καθαρισμός δεδομένων, Μετασχηματισμός δεδομένων, Μείωση δεδομένων, Διακριτοποίηση και δημιουργία ιεραρχιών εννοιών.

Αναπαράσταση γνώσης: Συνάφεια δεδομένων και προβλήματος,Γνώσεις υποβάθρου, Μέτρα ενδιαφέροντος πληροφορίας, Αναπαράσταση δεδομένων εισόδου και εξόδου, Διερευνητική ανάλυση δεδομένων & τεχνικές οπτικοποίησης.

Ανάλυση χαρακτηριστικών: Γενίκευση χαρακτηριστικών, Συνάφεια χαρακτηριστικών, Σύγκριση κλάσεων, Στατιστικά μέτρα.

Κανόνες συσχέτισης: Κοινά στοιχειοσύνολα, Apriori, FP-growth.

Ταξινόμηση: 1R, Δέντρα αποφάσεων, Ταξινόμηση βασισμένη σε κανόνες.

 Πρόβλεψη: Γραμμική παλινδρόμηση, Μπεϋζιανή ταξινόμηση, Μπεϋζιανά δίκτυα, Πρόβλεψη βασισμένη σε στιγμιότυπα (πλησιέστεροι γείτονες). 

Εκτίμηση απόδοσης: Εκπαίδευση και αξιολόγηση, Εκτίμηση ορθότητας,   Μέθοδοι συνόλων ταξινομητών, Περιγραφή ελάχιστου μήκους.

Ομαδοποίηση: Κ-μέσοι, Μεγιστοποίηση αναμονής (Ε-Μ), Ιεραρχικοί αλγόριθμοι ομαδοποίησης,Αξιολόγηση ποιότητας της ομαδοποίησης.

Εφαρμογές της εξόρυξης γνώσης από δεδομένα: Εξόρυξη γνώσης από κείμενα και από τον Παγκόσμιο Ιστό. Εργαλεία, βιβλιοθήκες και υπηρεσίες νέφους για την εξόρυξη γνώσης από δεδομένα.

 

Βιβλιογραφία

Han, J., Kamber, M. & Pei, J. (2012). Data mining concepts and techniques, third edition, Morgan Kaufmann Publishers

Charu C. Aggarwal - Data Mining The Textbook (2015, Springer) 

Pang-Ning Tan, Michael Steinbach, Vipin Kumar. Introduction to Data Mining. (2014, Pearson)

Raschka, Mirjalili. Python Machine Learning (2nd Edition). Packt 

Leskovec, J., Rajaraman, A., Ullman, J. (2014), Mining of Massive Datasets 

 


Εργαστήριο

Επικοινωνία με το εργαστήριο datascience@islab.ntua.gr

Εργασίες

Οι εργασίες θα γίνουν σε ομάδες φοιτητών οι οποίες θα δουλέψουν πάνω σε σετ δεδομένων με σκοπό την εξόρυξη γνώσης.

 

Διδάσκοντες

Γιώργος Στάμου, Αν. Καθηγητής ΣΗΜΜΥ-ΕΜΠ

Γεώργιος-Ανδρέας Σταφυλοπάτης, Καθηγητής ΣΗΜΜΥ ΕΜΠ

Γιώργος Αλεξανδρίδης, ΕΔΙΠ ΣΗΜΜΥ-ΕΜΠ

Γεώργιος Σιόλας, ΕΔΙΠ ΣΗΜΜΥ-ΕΜΠ

Παρασκευή Τζούβελη, ΕΔΙΠ ΣΗΜΜΥ-ΕΜΠ



 
Συγχρηματοδότηση
από την Ε.Ε.