Dragi listeri, Zamolio sam mr Milana Secujskog da napise jedan celovit odgovor na pitanja i dileme koje je izneo gospodin Rundek, pa Vam sada saljem taj odgovor u celini jer vam moze pomoci da do kraja shvatite zasto je anReader takav kakav je. Srdacan pozdrav iz Novog Sada, Prof. Delic Sledi tekst koji je napisao mr Milan Secujski. Postovani gospodine Rundek, Posto i licno ucestvujem u izradi anReadera za srpski i hrvatski jezik, i to upravo na delu koji se tice lingvistike, mislim da bih vam mogao dati odgovor na neke vase nedoumice. Softver koji omogucuje kvalitetnu sintezu sa prirodnom intonacijom govora, kao sto je anReader, mora izmedu ostalog (1) imati ugraden akcenatski recnik odgovarajuceg jezika, (2) imati ugradene odredene metode sintaksne analize recenice na tom jeziku, i (3) koristiti glas spikera koji govori tim jezikom. Softver koji ne nudi prirodnu intonaciju, kao sto je Wintalker Voice, moze se prilagoditi sa jezika koji ima slican fonetski inventar, ako se samo uradi korak (3), odnosno snimi spiker - to je u poredenju s ostalim koracima vrlo jednostavno i to je uradjeno sa WinTalker Voiceom. To je ono sto se, u tom slucaju, podrazumeva pod "prilagodbom", i sasvim ste pravilno primetili da "nije napravljen bas neki hrvatski proizvod" - nije ni mogao biti jer ne uzima u obzir lingvisticke modele. Zato je tako tesko uociti granice izmedu reci kada se takva sinteza slusa, i zato ona brze zamara slusaoca. (Na Internetu postoje brojni naucni radovi o znacaju prirodne intonacije u rastavljanju govornog toka na reci.) Sinteza govora kod anReadera zasniva se na slozenim lingvistickim modelima koje sam gore naveo, i na jos jednom izuzetno bitnom principu. Govor se sintetizuje na osnovu unapred snimljenih segmenata govora, ali ne uvek istih, vec od najpogodnijih segmenata odabranih u trenutku sinteze iz govorne baze od preko 2 sata govora - odabranih prema kriterijumima o fonetskom i intonativnom podudaranju. Dakle, kad korisnik unese sta zeli da se izgovori, tek tada se biraju segmenti iz baze pomocu kojih ce se to i sintetizovati. U bazi, dakle, mozda postoji vise desetina primeraka reci "lep", ali ce za sintezu recenice "Danas je lep dan" biti odabran upravo onaj koji intonativno najvise odgovara zahtevima - a intonativna podudarnost se otkriva zahvaljujuci lingvistickim modelima. Zato anReader ima toliku prirodnost, i zato se nije mogao napraviti na temelju WinTalker Voicea, a ne zato da bi to bio "srpski" proizvod. Kvalitetna sinteza govora se svakako najbolje moze realizovati na govornom podrucju tog jezika, ili ako ne to, onda svakako uz ucesce lingvistickih strucnjaka sa tog govornog podrucja. Preinacivanje anReadera na hrvatski zbog toga niposto nije "glupa i beskorisna stvar". U hrvatski anReader bice ukljucene sve tri stavke koje sam nabrojao u uvodu - imace hrvatski akcenatski recnik, metode sintaksne analize koje odgovaraju hrvatskom, i na kraju, hrvatskog spikera. On ce omogucavati prirodnu intonaciju na hrvatskom, i u njemu nece biti vise niceg "srpskog" - osim sto ce njegovi autori biti iz Srbije, ali se to ni po cemu nece osetiti u sintetizovanom govoru. To ce, dakle, biti prvi pravi hrvatski sintetizator govora. Akcenatski recnik i sintaksna analiza za hrvatski su vecim delom uradeni, ostaje jos treca stavka - snimanje govornika i obrada govorne baze, sto pri ovoj velicini baze moze potrajati dva-tri meseca. Hteo bih jos samo da prokomentarisem vasu opasku da je "velika prednost sto su jezici slavenske skupine i sto su preinake, u odnosu na neke druge, beznacajne". Vi ste dosli do ovog zakljucka posmatrajuci prilagodbu WTV-a za hrvatski. Kao sto ceski WTV nije imao cesku intonaciju, vec samo cesku fonetiku (pojedinacne glasove onako kako zvuce na ceskom), tako ni hrvatska verzija nema hrvatsku intonaciju. Takva preinaka zaista jeste beznacajna. Medutim, ako zelite da napravite kvalitetnu sintezu na nekom jeziku, morate krenuti prakticno od nule - s novom bazom, novim recnikom i novim lingvistickim modelima. Zato mozda i nije dobro reci "prilagodba anReadera na hrvatski", vec "realizacija anReadera na hrvatskom", a to radi tim ljudi koji je vec prikupio izuzetno veliko i vredno iskustvo u realizaciji sinteze govora na bazi lingvistickih modela. To iskustvo je jedino sto ce biti preneto na hrvatski anReader. Za kraj i jedna sveza informacija - upravo je uspesno privedeno kraju testiranje anReadera sa SAPI4, i postignuta je potpuna kompatibilnost. Ovo znaci da ce anReader ubuduce raditi i sa SAPI4. Prva verzija koju ce sadasnji korisnici anReadera besplatno moci da dobiju trebalo bi da bude na raspolaganju za 15 dana. Kada hrvatski anReader bude zavrsen (u toku jeseni), on ce biti kompatibilan i sa SAPI4 i sa SAPI5, sto ce staviti tacku na diskusije o "manjoj kompatibilnosti anReadera u odnosu na WTV". Srdacan pozdrav, Milan Secujski ----- Original Message ----- From: "Vlado Delic" <vdelic@xxxxxxxxxxxx> To: "Milan Secujski" <secujski@xxxxxxxxxxxx> Sent: Wednesday, June 01, 2005 10:21 AM Subject: Fw: [slikom] ima li prijedlog smisla > Milane, > > Na ovu poruku ti mozes dati najbolji odgovor. Napisi ga i posalji mi pa cu > ga ja proslediti na SliKom listu. > > Pozdrav, > Vlado > > > ----- Original Message ----- > From: "nikola rundek" <nikola.rundek@xxxxxxxxxxxx> > To: <slikom@xxxxxxxxxxxxx> > Sent: Monday, May 30, 2005 11:24 PM > Subject: [slikom] ima li prijedlog smisla > > > > Pozdrav svima! > > Na ovu su me poruku nagnale ostale poruke clanova liste kada su > > raspravljali o demo verzijama programa, a posebice poruka distributera > > anreadera. > > > > Prvo, distributer je u pravu kada zagovara ljude koji su nacinili > > anreader. Ali, mislim da ima jedan problem koji tisti sve. > > > > Zasto se ne bi proizvodjaci citaca ekrana udruzili na nacin kojim bi mnogo > > ustedjeli. Zasto, recimo, ne bi mogli raditi govorne jedinice za pojedino > > jezicno podrucje na vec postojecem nacrtu. Primjerice, bi li se na temelju > > win talkera mogla napraviti srpska verzija koja ne bi izgubila na > > kvaliteti glasa, a ne da se anreader morao napraviti samo zato da bi se > > moglo reci kako je to srpski proizvod. > > Win talker je ceski proizvod, ako se ne varam. Ustedjelo se vrijeme > > prilagodbe na hrvatski, a nije napravljen neki bas hrvatski proizvod. > > Na temelju svoga izlaganja zakljucujem da je glupa i beskorisna stvar > > preinacivati sada i anreader na hrvatski. Neka se napravi standard: neka > > se uzme jedan od postojecih programa koji su dobri i neka se dalje > > preinacava po potrebi. velika je prednost sto su jezici slavenske skupine > > i sto su preinake, u odnosu na neke druge, beznacajne. > > > > > > > > Za prijavu na ovu listu poslati poruku na adresu: > > slikom-request@xxxxxxxxxxxxx i u polju za tekst upisati, subscribe > > Za odjavu sa ove liste poslati poruku na adresu: > > slikom-request@xxxxxxxxxxxxx i u polju za tekst upisati, unsubscribe > > > > > > > > > Za prijavu na ovu listu poslati poruku na adresu: slikom-request@xxxxxxxxxxxxx i u polju za tekst upisati, subscribe Za odjavu sa ove liste poslati poruku na adresu: slikom-request@xxxxxxxxxxxxx i u polju za tekst upisati, unsubscribe