[orasi] Και η .οθόνη ομίλει

  • From: Κούβαρης Κώστας <COSTAS26@xxxxxxxxxxxxxxx>
  • To: Λιστα Οραση <orasi@xxxxxxxxxxxxx>
  • Date: Mon, 2 Jun 2008 15:17:38 +0300

Και η .οθόνη ομίλει!
Οι τελευταίες τεχνολογικές εξελίξεις στο χώρο της σύνθεσης φωνής, όπως 
αξιοποιούνται από τους ερευνητές του Ινστιτούτου Επεξεργασίας του Λόγου, 
ανοίγουν
το δρόμο σε πληθώρα καινοτόμων εφαρμογών και επιδρούν καταλυτικά στην 
ανάπτυξη νέων, οι οποίες ήταν ως τώρα ανέφικτες, με το διαθέσιμο επίπεδο 
ποιότητας.
Σήμερα, ως προϊόν μιας ώριμης πλέον τεχνολογίας, η συνθετική φωνή ελάχιστα 
απέχει από αυτή ενός φυσικού ομιλητή...
Ο ερευνητής του Ινστιτούτου Επεξεργασίας του Λόγου και συντονιστής της 
ομάδας σύνθεσης φωνής από κείμενο, Σπύρος Ράπτης, με κοιτάζει χαμογελώντας 
με την
έκπληξή μου. Βλέπετε, η φωνή που ακούω να απαγγέλλει τα κείμενα είναι 
συνθετική.
Κι όμως, είναι τόσο μεγάλη η προσέγγιση, που πρέπει να προσέξεις πολύ για να 
καταλάβεις τη διαφορά από έναν πραγματικό εκφωνητή. Ίσως, γιατί τη φωνή που
ακούμε τη «δάνεισε» ένας πραγματικός εκφωνητής, μόνο που εκείνος (ή εκείνη, 
στην περίπτωσή μας) είχε διαβάσει εντελώς διαφορετικά κείμενα...
Η απόδοση των σύγχρονων συστημάτων σύνθεσης φωνής, τρίτης πλέον γενεάς, έχει 
φτάσει σε ιδιαίτερα υψηλό επίπεδο φυσικότητας, σε σύγκριση με τις 
παλαιότερες
προσπάθειες, που δεν μπορούσαν να κρύψουν τον «μηχανικό» τους χαρακτήρα. 
Σήμερα, μόνο ένας εξασκημένος ακροατής μπορεί πλέον να ξεχωρίσει τη 
συνθετική
από τη φυσική φωνή.
Η απόδοση των σύγχρονων συστημάτων σύνθεσης φωνής, τρίτης πλέον γενεάς, έχει 
φτάσει σε ιδιαίτερα υψηλό επίπεδο φυσικότητας, σε σύγκριση με τις 
παλαιότερες
προσπάθειες, που δεν μπορούσαν να κρύψουν τον «μηχανικό» τους χαρακτήρα. 
Σήμερα, μόνο ένας εξασκημένος ακροατής μπορεί πλέον να ξεχωρίσει τη 
συνθετική
από τη φυσική φωνή.
Τρίτη (γενιά) και καλύτερη...
Η συνθετική φωνή (που εμάς μας εντυπωσίασε στην εφαρμογή των ομιλούντων 
ιστοτόπων, δηλαδή στην ανάγνωση του περιεχομένου ιστοσελίδων) προφανώς δεν 
είναι
κάτι καινούριο. Ήδη από τη δεκαετία του '30 υπήρχαν μηχανές που μιλούσαν 
στον κινηματογράφο (ιδιαίτερα εκεί, στις ταινίες της τότε επιστημονικής 
φαντασίας)
αλλά κι έξω από αυτόν.
Όμως, ο ήχος ήταν εντελώς μεταλλικός και η φωνή ακουγόταν λες και ο ομιλών 
είχε& μανταλάκι στη μύτη (που ίσως και να είχε, για να αποδοθεί καλύτερα το 
εφέ!)
Από τότε, πολύ νερό κύλησε στο αυλάκι...
Περάσαμε μια και δυο τεχνολογικές γενιές συστημάτων σύνθεσης και τώρα πια 
βρισκόμαστε αισίως στην τρίτη, με την τεχνολογία να είναι αρκούντως ώριμη 
και
να χρησιμοποιείται πλέον σε ολοένα και περισσότερες εφαρμογές, αφού τα 
«προϊόντα» της είναι, αν μη τι άλλο, αληθοφανή.
Η εξέλιξη της τεχνολογίας σύνθεση φωνής σε διεθνές επίπεδο
list of 7 items
. Πρώτο σύστημα ~1939
. Ταχύτερη εξέλιξη στη δεκαετία '70, με την ανάπτυξη των υπολογιστών
. Πρώτα χρήσιμα συστήματα, στα τέλη της δεκαετίας του '80
. Ωρίμανση της τεχνολογίας στη δεκαετία του '90
. Πρώτα δειλά βήματα στην αγορά τέλη, στα τέλη της δεκαετίας του '90
. Ώριμη πλέον τεχνολογία, σήμερα
. Η εξέλιξη συνεχίζεται ακόμα και πλησιάζουμε τον HAL 9000...
list end
Στα καθ' ημάς, οι έρευνες πάνω στη σύνθεση φωνής σε ελληνική γλώσσα είχαν 
ξεκινήσει οργανωμένα ήδη από τις αρχές της δεκαετίας του '90, από το 
Ινστιτούτο
Επεξεργασίας του Λόγου, που παρουσίασε το 1997 ως πρώτο προϊόν του, τον 
«Εκφωνητή», ο οποίος πέντε χρόνια αργότερα αναβαθμίστηκε (χρησιμοποιώντας 
διαφορετική
τεχνολογική προσέγγιση) σε «Εκφωνητή +».
Πριν από σχεδόν δυο χρόνια, βελτιώθηκε ακόμα περισσότερο, χάρη σε μια 
διαφορετική τεχνολογική προσέγγιση, και καταφέρνει να δώσει ιδιαίτερα 
αξιόπιστα ακουστικά
αποτελέσματα.
Τώρα, η σύνθεση φωνής γίνεται με τη χρήση «λογατόμων», δηλαδή στοιχειωδών 
φωνημάτων, που επιλέγονται με τη βοήθεια σύνθετων αλγορίθμων, από την 
πραγματική
φωνή ενός εκφωνητή ή εκφωνήτριας, ενώ σημαντικότατο ρόλο στη φυσικότητα του 
αποτελέσματος παίζει πλέον και η απόδοση της προσωδίας, της μελωδικότητας 
και
της ιδιαίτερης χροιάς με την οποία κάθε άνθρωπος «στολίζει» τη φωνή του.
Η ταυτότητα των «γενητόρων»
Το Ινστιτούτο Επεξεργασίας του Λόγου ιδρύθηκε το 1991, με έδρα την Αθήνα ως 
ανεξάρτητο Ινστιτούτο, και σήμερα υπάγεται στο Ερευνητικό Κέντρο «Αθηνά».
Στόχος του είναι να αποτελεί κέντρο αριστείας στη βασική και εφαρμοσμένη 
έρευνα σε πολλούς και ποικίλους τομείς, όπως η επεξεργασία φυσικής γλώσσας, 
η επεξεργασία,
σύνθεση και αναγνώριση φωνής, η επεξεργασία μουσικής και ήχου, η ηλεκτρονική 
μάθηση και η μάθηση από απόσταση σε θέματα γλώσσας, πολιτισμού και μουσικής.
Οι κύριοι τεχνολογικοί άξονες στους οποίους κινείται η αναπτυξιακή του 
δραστηριότητα είναι τα ηλεκτρονικά και υπολογιστικά μονόγλωσσα και 
πολύγλωσσα λεξικά,
τα υπολογιστικά εργαλεία μηχανικής μετάφρασης και υποβοήθησης της 
μεταφραστικής διαδικασίας, η επεξεργασία και ανάκτηση πολυμεσικής και 
πολύγλωσσης πληροφορίας,
η διόρθωση λαθών σε ηλεκτρονικά κείμενα, τα αυτόνομα και ενσωματωμένα 
συστήματα σύνθεσης και αναγνώρισης ομιλίας, τα συστήματα υποστήριξης Ατόμων 
με Αναπηρία
και τα συστήματα παρουσίασης και διαχείρισης πολιτιστικού περιεχομένου.
Όμως, όπως συμβαίνει συχνά στο χώρο της έρευνας, τα αποτελέσματά της μπορούν 
να εκφραστούν καλύτερα και να αξιοποιηθούν εμπορικά (πάγιο ζητούμενο από 
δεκαετίες
παραμένει η σύνδεση των ερευνητικών αποτελεσμάτων με την παραγωγή) μέσα από 
μια εταιρία τεχνοβλαστό.
Στη συγκεκριμένη περίπτωση, αυτή ακούει στο όνομα innoetics και ιδρύθηκε το 
2006 ως εταιρεία έντασης γνώσης.
Σ' αυτή συμμετέχουν ερευνητές με ειδίκευση στους τομείς της γλωσσικής 
επεξεργασίας, της επεξεργασίας σημάτων, των επικοινωνιών, της ρομποτικής και 
των τεχνολογιών
γνώσης, καθώς και άλλοι συνεργάτες με σημαντική εμπειρία στη σχεδίαση και 
υλοποίηση καινοτόμων λύσεων.
Φυσικά, η innoetics διατηρεί στενή σχέση με τις ερευνητικές της ρίζες, 
επενδύοντας παράλληλα στη διάχυση των ερευνητικών αποτελεσμάτων και την 
αξιοποίησή
τους μέσω καινοτόμων λύσεων οι οποίες μπορούν να επηρεάσουν δραστικά την 
καθημερινότητά μας, τον τρόπο που επικοινωνούμε, μαθαίνουμε και 
ψυχαγωγούμαστε.
Όπως δήλωσε στο Pathfinder ο Σπύρος Ράπτης, «η innoetics αναπτύσσει και 
προσφέρει πρωτοποριακά προϊόντα, υπηρεσίες και εργονομίες με στόχο την 
αμεσότερη
και διαισθητική αλληλεπίδραση του χρήστη με το περιεχόμενο, είτε στο 
διαδίκτυο είτε και σε κάθε άλλο ηλεκτρονικό μέσο.
Το όραμά της είναι η βελτίωση της ποιότητας της ψυχαγωγικής εμπειρίας, η 
αύξηση της χρηστικότητας των εκδόσεων, η διευκόλυνση της πρόσβασης στην 
πληροφορία
μέσω εναλλακτικών τρόπων διανομής και «κατανάλωσης» του περιεχομένου, η 
διευκόλυνση της καθημερινής επικοινωνίας και ενημέρωσης και η υποβοήθηση της 
μάθησης
και της διδασκαλίας».
Πολλές οι εφαρμογές...
Η συζήτηση με τους ερευνητές του ΙΕΛ είναι αποκαλυπτική σ' ό,τι αφορά στις 
προοπτικές αυτής της τεχνολογίας: η επίτευξη ποιοτικής συνθετικής φωνής 
μπορεί
να ανοίξει νέους δρόμους και να επιδράσει καταλυτικά στην ανάπτυξη νέων 
καινοτόμων εφαρμογών και υπηρεσιών, οι οποίες ήταν ως τώρα ανέφικτες, με το 
επίπεδο
ποιότητας που είχαμε στη διάθεσή μας.
Κι αυτό γιατί η φωνή είναι βασικό υποστηρικτικό εργαλείο στην υποκατάσταση 
της γραπτής ή γενικότερα οπτικής πληροφορία, για ειδικές ομάδες ατόμων όπως 
τα
άτομα με προβλήματα όρασης (τυφλοί ή μερικώς βλέποντες), οι ηλικιωμένοι, οι 
δυσλεξικοί, τα άτομα που δυσκολεύονται να χειριστούν έντυπα μέσα, εκείνα που
δε γνωρίζουν επαρκώς τη γλώσσα μας (π.χ. μετανάστες) και όχι μόνο...
Η τεχνολογία σύνθεσης φωνής από κείμενο μπορεί, επομένως, να αποτελέσει τη 
βάση για ένα πλήθος υπηρεσιών που αφορούν δυνητικά κάθε άνθρωπο. Για 
παράδειγμα,
μπορεί να δώσει λύση σε περιπτώσεις προσωρινής «ανικανότητας» χρησιμοποίησης 
οπτικής πληροφορίας, όπως συμβαίνει όταν κάποιος οδηγεί.
Για άλλους, πάλι, η ακουστική πληροφορία είναι μερικές φορές πιο λειτουργική 
απ' ό,τι η οπτική (πχ για εκφώνηση ειδησεογραφικών άρθρων, αντί για ανάγνωση
από την οθόνη και προσήλωση μπροστά στον υπολογιστή).
Μπορεί, επίσης, να λειτουργήσει συμπληρωματικά με άλλα μέσα, σαν κανάλι 
πληροφορίας παράλληλο με το οπτικό, αλλά και για τον εμπλουτισμό της 
αλληλεπίδρασης
με την πληροφορία.
...και ευοίωνο το μέλλον!
Ο στόχος των αναπτυξιακών προσπαθειών της ερευνητικής ομάδας ακούγεται 
ιδιαίτερα φιλόδοξος, έτσι όπως μας τον περιέγραψαν: η δημιουργία συνθετικών 
φωνών
που δεν θα ξεχωρίζουν ποιοτικά από τη φυσική ομιλία, θα έχουν υψηλή 
εκφραστικότητα, θα καλύπτουν μεγάλο εύρος ηχοχρωμάτων και διαφορετικών στυλ 
εκφώνησης
και θα αξιοποιούνται σε πλήθος εφαρμογών προστιθέμενης αξίας, 
μετασχηματίζοντας δραστικά τον τρόπο που αλληλεπιδρούμε καθημερινά με 
ηλεκτρονικά μέσα και
υπηρεσίες.
Μάλιστα, οι βλέψεις τους δεν περιορίζονται μόνο εντός των συνόρων: μας 
επεσήμαναν ότι η Ελλάδα, με την πολύχρονη ερευνητική και αναπτυξιακή της 
εμπειρία
στον τομέα της γλωσσικής τεχνολογίας, μπορεί να παίξει σημαντικό ρόλο στη 
διάχυση γλωσσικής τεχνολογίας σε γειτονικές χώρες, πολλές από τις οποίες 
συγκριτικά
υστερούν.
Ήδη, στο ΙΕΛ βρίσκεται σε εξέλιξη ερευνητικό έργο διασυνοριακής συνεργασίας 
Interreg, με στόχο τη μεταφορά της τεχνολογίας σύνθεσης φωνής στη βουλγαρική
γλώσσα.
Η τεχνολογία σύνθεσης φωνής στο ΙΕΛ
list of 3 items
. 1997 - Εκφωνητής (1η γενιά) Σύνθεση με formants Το πρώτο εμπορικά 
διαθέσιμο σύστημα για τα ελληνικά.
. 2002 - Εκφωνητής+ (2η γενιά) Σύνθεση με τεχνικές στο πεδίο του χρόνου.
. 2006 - Νέα γενιά σύνθεσης (3η γενιά) Σύνθεση με αλγορίθμους επιλογής 
βέλτιστων λογατόμων Σύνθεση φωνής κορυφαίας ποιότητας για τα ελληνικά. Η 
τεχνολογία
επιτυγχάνει πολύ υψηλή καταληπτότητα και μοναδική φυσικότητα, προσφέροντας 
συνθετική φωνή που σχεδόν δεν ξεχωρίζει από ένα φυσικό ομιλητή.
list end
Γιάννης Ριζόπουλος
πηγη πληροφοριων
http://technologein.pathfinder.gr/iel/ 

_____________________

orasi mailing list
διαβάστε για αυτή την λίστα και τα θέματα που συζητά στο
//www.freelists.org/webpage/orasi

Για να στείλετε ένα μήνυμα και να το δουν όλοι οι  συνδρομητές της λίστας 
στείλτε email στην διεύθυνση
orasi@xxxxxxxxxxxxx

Για να διαγραφείτε από αυτή την λίστα μπορείτε οποιαδήποτε στιγμή να στείλετε 
email στην διεύθυνση
orasi-request@xxxxxxxxxxxxx 
και στο θέμα γράψτε unsubscribe.

Το αρχείο της λίστας βρίσκεται στο
//www.freelists.org/archives/orasi

______________



Other related posts: