mycourses .ntua.gr
Επεξεργασία Φωνής και Φυσικής Γλώσσας

Γενικά στοιχεία

 

Περιγραφή
Ανάλυση και μοντελοποίηση φωνής. Μοντέλα παραγωγής φωνής. Τεχνικές εξαγωγής χαρακτηριστικών για εφαρμογές επεξεργασίας φωνής. Σύγχρονες τεχνικές κωδικοποίησης φωνής. Εισαγωγή στην αναγνώριση φωνής και τα κρυφά Μαρκοβιανά μοντέλα.  Στατιστική σύνθεση φωνής. Εφαρμογές αναγνώρισης φωνής, σύνθεσης φωνής και η γλώσσα VoiceXML. Βασικές έννοιες της υπολογιστικής γλωσσολογίας. Βασικά εργαλεία επεξεργασίας γλώσσας: κανονικές εκφράσεις, μηχανές πεπερασμένης κατάστασης, γλωσσικά μοντέλα ν-γραμμάτων, γραμματικές χωρίς συμφραζόμενα, δενδρικά μοντέλα απόφασης, στατιστικά μοντέλα συντακτικής ανάλυσης, στατιστικά μοντέλα σημασιολογικής ανάλυσης, μοντέλα διαλόγου και στατιστικά μοντέλα μετάφρασης. Βαθιά νευρωνικά δίκτυα για εφαρμογές φωνής καιι γλώσσας. 
 
Συμπληρωματική ηλεκτρονικη ιστοσελίδα μαθηματος (ερευνητική ομάδα 'Ορασης Υπολογιστών, Επικοινωνίας Λόγου, και Επεξεργασίας Σημάτων - CVSP).
 
Διδάσκων: Aν. Kαθ. Αλέξανδρος Ποταμιάνος (http://cvsp.cs.ntua.gr/potam/)
 
 https://centralntua.webex.com/centralntua/j.php?MTID=m25fe6193e7fee12aafe3472ee22d5442
 
Διαλέξεις θα δοθούν επίσης από τους:
      Δρ. Νάσσος Κατσαμάνης
 
ΠΡΟΓΡΑΜΜΑ ΑΚΑΔ. ΕΤΟΥΣ 2020-2021
 
Χρόνος και Τόπος:  Τετάρτη 10:45 - 14:30 - Για το ακαδημαϊκό έτος 2020-21 οι διαλέξεις θα γίνονται διαδικτυακά μέσω webex στο ακόλουθο σύνδεσμο https://centralntua.webex.com/centralntua/j.php?MTID=m25fe6193e7fee12aafe3472ee22d5442
                               (ορισμένες Δευτέρες (10:45-12:30) θα γίνεται εργαστήριο διαδικτυακά κατόπιν ενημέρωσης) 
                               Έναρξη: Τετάρτη 07-10-2020
  
Βοηθοί: Γιώργος Παρασκευόπουλος (geopar@central.ntua.gr)
      Ευθύμης Γεωργίου (efthygeo@mail.ntua.gr) 
              Χάρης Παπαϊωάννου (cpapaioan@mail.ntua.gr) 
Ύλη
 ΕβδομάδαΓνωστικό Αντικέιμενο

Σχετική Βιβλιογραφία

(κωδικος βιβλίου -κεφάλαιο)

 1

 

Εισαγωγή στην Επεξεργασία Φωνής - Εισαγωγή στην Επεξεργασία Φυσικής Γλώσσας - Σύστημα παραγωγής ομιλίας κ εισαγωγή στην φωνολογία.  Παραγωγή φωνής - Μοντέλα φωνητικού σωλήνα - Βασικά χαρακτηριστικά σήματος φωνής 

R&S 1, R&J 2.1-2.4,  R&S 3, R&S 4.1-4.6, R&S 5.1-5.2       J&M 1   

 2

 

  

 Κανονικές εκφράσεις -  Μηχανές πεπερασμένης κατάστασης  - Τροπικοί ημιδακτύλιοι - Μηχανές πεπερασμένης κατάστασης με βάρη - Μοντέλα μορφολογίας γλώσσας - Μορφολογία - Φωνολογία - Ορθογράφοι (spell checkers) - Bayes Classifier

J&M (2nd edition) 2.2 -2.4 

J&M (2nd edition) 3, 4, 11  

http://www.openfst.org/twiki/bin/view/FST/FstHltTutorial 

 3

 

Στατιστικά γλωσσικά μοντέλα  - Naive Bayes - Bag of Word Models - Logistic regression 

 

J&M (3rd edition) 3, 4, 5

 4

 

 

4a. Διανυσματικές αναπαραστάσεις γνώσης 

4b. Νευρωνικά Δίκτυα - RNNs - Sequence to Sequence μοντέλα


 J&M (3rd edition) 6

 J&M (3rd edition) 7, 9

 5

 

 Μοντέλα ανάλυσης βραχέως χρόνου (short-time processing) -  Ανάλυση Φωνής - Αλγόριθμοι υπολογισμού θεμελιώδους συχνότητας και formants - Γραμμική πρόβλεψη - Ομομορφική επεξεργασία - Cepstrum

R&S 6, R&S 7.1-7.3,

R&S 8, R&S 9

 

 6

 

 Στατιστικα μοντέλα Bayes - Μοντέλα Markov - Κρυφά μοντέλα  Markov - Εφαργμογή σε αναγνώριση Φωνής
R&S 14, R&J 6, B 8,
J&M (2nd edition) 6.1-6.5, 4, 9
 

 7

 

 Αναγνώριση μερών του λόγου (part-of-speech tagging) - Συντακτικοί αναλυτές - Στατιστικοί συντακτικοί αναλυτές 

  J&M 8, 10, 11, 12

 8

 

Dependency parsing -  Μαθηματική Λογική και Σημασιολογία - Σημασιολογικοί Αναλυτές

 J&M 13, J&M 14

J&M (2nd edition) 17, 18   

 9Αναγνώριση συναισθημάτων - Semantic Role labelling - Information Extraction - Machine Translation


J&M 17, 18, 19, 22   
 10 Συστήματα Διαλόγου - Πολυτροπικά συστήματα αλληλεπίδρασης με φωνή - Η Γλώσσα Voice XML

J&M 23, 24, 25, Διαφάνειες μαθήματος

 
 11 Σύνθεση φωνής (text-to-speech synthesis) - Κωδικοποίηση φωνής (speech coding)  

R&S 13, R&S 11,

 
 *
 Εργαστήριο Επεξεργασίας Φυσικής Γλώσσας I: - Η βιβλιοθήκη OpenFST - μετατροπέας Greekglish  + Word2Vec BoW for text classification 
           5η εβδομάδα   
 *
 Εργαστήριο Επεξεργασίας Φωνής - Το λογισμικό KALDI - Εκπαίδευση γλωσσικών μοντέλων - Σύστημα αναγνώρισης φωνής
8η ενδομάδα 
 *Εργαστήριο Επεξεργασίας Φυσική Γλώσσας II: RNNs/LSTMs for sentiment analysis11η εβδομάδα 

Προαπαιτούμενα: Σήματα και Συστήματα

Άλλα σχετικά μαθήματα: Ψηφιακή Επεξεργασία Σημάτων, Αναγνώριση Προτύπων

Εργαλεία που θα χρησιμοποιηθούν στο μάθημα: PyTorch, OpenFST, KALDI, Python, MATLAB

Βιβλιογραφία
  1. [J&M] Daniel Jurafsky  and James H. Martin.
    Speech and Language Processing (3rd edition draft 2018 fall version)
    https://web.stanford.edu/~jurafsky/slp3/ 
  2. [R&S] Lawrence R. Rabiner and Ronald W. Schafer.
    Theory and Applications of Digital Speech Processing.
    Pearson, 2011.
  3. [R&J] Lawrence R. Rabiner and Biing-Hwang Juang.
    Fundamentals of Speech Recognition.
    PTR Prentice Hall, 1993
  4. [B] Christopher M. Bishop.
    Pattern Recognition and Machine Learning. Springer-Verlag New York, 2006.
  5. Βασίλειος Διγαλάκης και Αλέξανδρος Ποταμιάνος.
  6. Σημειώσεις στην Επεξεργασία Φωνής.
Mέθοδοι αξιολόγησης
  • 2 σειρές ασκήσεων 20%
  • Πρόοδος 20%
  • Τελικό 30%
  • Εργαστήρια 30%