Είσοδος

Εξόρυξη Γνώσης από Δεδομένα

Γενικά στοιχεία

 

 
Περιγραφή

Syllabus

Εισαγωγή στην εξόρυξη γνώσης από δεδομένα. Σχετικές τεχνολογίες (Στατιστική, Μηχανική Μάθηση, DBMS, OLAP). Στόχοι και στάδια της εξόρυξης γνώσης. Τεχνικές εξόρυξης γνώσης. Μέθοδοι αναπαράστασης γνώσης. Προεπεξεργασία δεδομένων. Καθαρισμός, μετασχηματισμός και μείωση δεδομένων. Διακριτοποίηση και δημιουργία ιεραρχιών εννοιών. Αναπαράσταση γνώσης. Συνάφεια δεδομένων και προβλήματος, γνώση υποβάθρου, μέτρα ενδιαφέροντος πληροφορίας, αναπαράσταση δεδομένων εισόδου και εξόδου, διερευνητική ανάλυση δεδομένων & τεχνικές οπτικοποίησης. Ανάλυση χαρακτηριστικών. Γενίκευση χαρακτηριστικών, καταλληλότητα χαρακτηριστικών, σύγκριση κλάσεων, στατιστικά μέτρα. Κανόνες συσχέτισης. Κοινά στοιχειοσύνολα, αλγόριθμοι Apriori και FP-growth. Ταξινόμηση. Αλγόριθμος 1R, δέντρα αποφάσεων, ταξινόμηση βασισμένη σε κανόνες. Πρόβλεψη. Μπεϋζιανή ταξινόμηση, Μπεϋζιανά δίκτυα, πρόβλεψη βασισμένη σε στιγμιότυπα (πλησιέστεροι γείτονες). Εκτίμηση απόδοσης. Εκπαίδευση και αξιολόγηση, εκτίμηση ορθότητας, μέθοδοι συνόλων ταξινομητών, περιγραφή ελάχιστου μήκους. Ομαδοποίηση. Κ-μέσοι, DBSCAN, συσσωρευτική ιεραρχική μοντελοποίηση (HAC), αξιολόγηση ποιότητας της ομαδοποίησης. Εφαρμογές της εξόρυξης γνώσης από δεδομένα. Εξόρυξη γνώσης από κείμενα, εξόρυξη γνώσης από τον Παγκόσμιο Ιστό. Εργαλεία, βιβλιοθήκες και υπηρεσίες νέφους για την εξόρυξη γνώσης από δεδομένα.

 

Ύλη

Εισαγωγή: Τι είναι η εξόρυξη γνώσης από δεδομένα, Σχετικές τεχνολογίες: Στατιστική, Μηχανική Μάθηση, DBMS, OLAP, Στόχοι και στάδια της εξόρυξης γνώσης, Τεχνικές εξόρυξης γνώσης, Μέθοδοι αναπαράστασης γνώσης.

Προεπεξεργασία δεδομένων: Καθαρισμός δεδομένων, Μετασχηματισμός δεδομένων, Μείωση δεδομένων, Διακριτοποίηση και δημιουργία ιεραρχιών εννοιών.

Αναπαράσταση γνώσης: Συνάφεια δεδομένων και προβλήματος,Γνώσεις υποβάθρου, Μέτρα ενδιαφέροντος πληροφορίας, Αναπαράσταση δεδομένων εισόδου και εξόδου, Διερευνητική ανάλυση δεδομένων & τεχνικές οπτικοποίησης.

Ανάλυση χαρακτηριστικών: Γενίκευση χαρακτηριστικών, Συνάφεια χαρακτηριστικών, Σύγκριση κλάσεων, Στατιστικά μέτρα.

Κανόνες συσχέτισης: Κοινά στοιχειοσύνολα, Apriori, FP-growth.

Ταξινόμηση: 1R, Δέντρα αποφάσεων, Ταξινόμηση βασισμένη σε κανόνες.

Πρόβλεψη: Γραμμική παλινδρόμηση, Μπεϋζιανή ταξινόμηση, Μπεϋζιανά δίκτυα, Πρόβλεψη βασισμένη σε στιγμιότυπα (πλησιέστεροι γείτονες). 

Εκτίμηση απόδοσης: Εκπαίδευση και αξιολόγηση, Εκτίμηση ορθότητας,   Μέθοδοι συνόλων ταξινομητών, Περιγραφή ελάχιστου μήκους.

Ομαδοποίηση: Κ-μέσοι, Μεγιστοποίηση αναμονής (Ε-Μ), Ιεραρχικοί αλγόριθμοι ομαδοποίησης,Αξιολόγηση ποιότητας της ομαδοποίησης.

Εφαρμογές της εξόρυξης γνώσης από δεδομένα: Εξόρυξη γνώσης από κείμενα και από τον Παγκόσμιο Ιστό. Εργαλεία, βιβλιοθήκες και υπηρεσίες νέφους για την εξόρυξη γνώσης από δεδομένα.

 

Βιβλιογραφία

Han, J., Kamber, M. & Pei, J. (2012). Data mining concepts and techniques, third edition, Morgan Kaufmann Publishers

Charu C. Aggarwal - Data Mining The Textbook (2015, Springer) 

Pang-Ning Tan, Michael Steinbach, Vipin Kumar. Introduction to Data Mining. (2014, Pearson)

Raschka, Mirjalili. Python Machine Learning (2nd Edition). Packt 

Leskovec, J., Rajaraman, A., Ullman, J. (2014), Mining of Massive Datasets 

 


Εργαστήριο

Επικοινωνία με το εργαστήριο datascience@islab.ntua.gr

Εργασίες

Οι εργασίες θα γίνουν σε ομάδες φοιτητών 2 ή 3 ατόμων, οι οποίες θα δουλέψουν πάνω σε ένα σύνολο δεδομένων με σκοπό την εξόρυξη γνώσης.

Δείτε πρώτα τον φάκελο Εργασίες Εξαμήνου στα Έγγραφα για την εκφώνηση και τα διαθέσιμα datasets. 

Σημαντικές παρατηρήσεις για τη λειτουργία των διαφόρων clouds. Διαβάστε το γιατί μπορεί να χάσετε δεδομένα.

Δήλωση ομάδας και θέματος

Τελική παράδοση στην ενότητα "Εργασίες".

Διδάσκοντες

Γιώργος Στάμου, Αν. Καθηγητής ΣΗΜΜΥ-ΕΜΠ

Γεώργιος-Ανδρέας Σταφυλοπάτης, Καθηγητής ΣΗΜΜΥ ΕΜΠ

Γιώργος Αλεξανδρίδης, ΕΔΙΠ ΣΗΜΜΥ-ΕΜΠ

Γεώργιος Σιόλας, ΕΔΙΠ ΣΗΜΜΥ-ΕΜΠ

Παρασκευή Τζούβελη, ΕΔΙΠ ΣΗΜΜΥ-ΕΜΠ



 
Συγχρηματοδότηση
από την Ε.Ε.