[SMCC] Re: bo tong hop giong noi [#Filter Mails not addressed to local Domains (bcc)#]
- From: Nguyen Hoang Bao Vu <nguyenhoangbaovu@xxxxxx>
- To: smcc@xxxxxxxxxxxxx
- Date: Thu, 21 Dec 2006 20:58:47 +0700
mail nay duoc outlook cua toi nhan duoc luc 5H53Min chieu ngaay 21 thang 12.
Phuc gui mail rieng vao hop mail:
nguyenhoangbaovu@xxxxxx
bao cho biet mail nay duoc gui di tu luc nao khan cap duoc 0?
Name: Nguyen Hoang Bao Vu
Home: 210C Hiep Binh Chanh tenement. Thu Duc district Ho Chi Minh City Viet Nam
Home Phone: 7262214
Cell-phone: 0989350014
Yahoo ID: nguyenhoangbaovu
MSN ID: nguyenhoangbaovu
Skype ID: nguyenhoangbaovu
Blog: 360.yahoo.com/nguyenhoangbaovu
----- Original Message -----
From: Dang Hoai Phuc
To: smcc@xxxxxxxxxxxxx
Sent: Thursday, December 21, 2006 5:53 PM
Subject: [SMCC] Re: bo tong hop giong noi [#Filter Mails not addressed to
local Domains (bcc)#]
Vu oi, bai nay kha hay. Vu co the cho cai link de len xem tren mang duoc
khong?
----- Original Message -----
From: Nguyen Hoang Bao Vu
To: di nhan ; di thuy ; gia khanh ; huynh dang son ; le hien duc ; smcc
Sent: Thursday, December 21, 2006 1:37 AM
Subject: [SMCC] bo tong hop giong noi [#Filter Mails not addressed to local
Domains (bcc)#]
Bài vi?t này su t?m và g?t dua khá công phu.
N?i dung thì h?t chê.
Dài cung ph?i n?.
Xin b?n s?p s?p th?i gian r?i rãi kho?ng trên 1 gi? d? có th? d?c và ng?m
v? bài phân tích khoa h?c v? ch? d? g?n li?n v?i ngu?i dùng vi tính khi?m th?
mình.
Trên máy tính, t?ng h?p gi?ng nói là vi?c t?o ra gi?ng nói c?a ngu?i t? d?u
vào là van b?n hay các mã hóa vi?c phát âm. H? th?ng th?c hi?n vi?c này còn g?i
là máy t?ng h?p gi?ng nói, có th? là h? th?ng ph?n m?m ho?c ph?n c?ng. H? th?ng
này còn du?c g?i là van b?n-sang-ti?ng nói (text-to-speech, TTS); tuy r?ng
không ph?i h? th?ng t?ng h?p gi?ng nói nào cung có d?u vào là van b?n (nhi?u h?
th?ng thu nh?n mã hóa cách phát âm, ví d? mã IPA, nhu d?u vào). Các h? th?ng
này có nhi?u ?ng d?ng. Ví d? nhu h? th?ng này có th? giúp ngu?i khi?m th? nghe
du?c máy d?c ra van b?n; d?c bi?t là các van b?n có th? x? lý trên máy tính. H?
th?ng nhu v?y có th? l?p d?t trong ph?n m?m x? lý van b?n hay trình duy?t m?ng.
T?ng quan
M?t máy t?ng h?p gi?ng nói bao g?m hai ph?n: ngo?i di?n và h?u tru?ng. Ph?n
ngo?i di?n nh?n d?u vào ? d?ng van b?n r?i cho d?u ra là th? hi?n bi?u tu?ng
ngôn ng? c?a van b?n (t?c là m?t cách mã hóa cách phát âm van b?n). Ph?n h?u
tru?ng nh?n l?y th? hi?n bi?u tu?ng ngôn ng? nhu d?u vào và cho ra gi?ng nói
t?ng h?p ? d?ng sóng âm thanh.
Ph?n ngo?i di?n có hai nhi?m v? chính. Tru?c tiên, nó nh?n van b?n và
chuy?n d?i các ký t? nhu các ch? s? hay cách vi?t t?t thành d?ng vi?t d?y d?.
Quá trình này g?i là chu?n hóa van b?n, hay ti?n x? lý. Sau dó nó cho ra mã
phát âm ?ng v?i t?ng t?, r?i phân chia và dánh d?u van b?n thành t?ng do?n van,
nhóm t?, m?nh d?, hay câu van.
Quá trình chuy?n van b?n sang mã phát âm du?c g?i là van b?n-sang-âm v?.
K?t h?p mã phát âm và thông tin do?n van t?o nên d?u ra cu?i cùng th? hi?n bi?u
tu?ng ngôn ng?.
Ph?n h?u tru?ng, nh?n l?y th? hi?n bi?u tu?ng ngôn ng? r?i chuy?n nó thành
âm thanh. Ph?n này thu?ng du?c g?i là máy t?ng h?p. Có nhi?u k? thu?t t?ng h?p,
du?c mô t? bên du?i.
L?ch s?
T? lâu tru?c khi k? thu?t x? lý tín hi?u b?ng thi?t b? di?n t? hi?n d?i ra
d?i, các nhà nghiên c?u gi?ng nói dã c? g?ng xây d?ng các máy móc b?t chu?c
gi?ng nói c?a ngu?i. Các ví d? d?u tiên c?a các máy này du?c ch? t?o b?i
Gerbert ? Aurillac
(
1003), Albertus Magnus
(
1198 - 1280), và Roger Bacon ( 1214 - 1294).
Nam 1779, nhà khoa h?c ngu?i Dan M?ch Christian Kratzenstein, lúc dó làm
vi?c t?i Vi?n Hàn lâm Khoa h?c Nga, xây d?ng m?t mô hình có th? b?t chu?c gi?ng
nói ngu?i v?i nam nguyên âm ([a], [e], [I], [o] và [u]). Máy này sau dó du?c
c?i ti?n thành 'Máy Phát âm Co khí-Âm h?c' c?a Wolfgang von Kempelen ? Wien,
Áo, du?c mô t? trong bài báo nam 1791 mang t?a d? Mechanismus der menschlichen
Sprache nebst der Beschreibung seiner sprechenden Maschine
("phuong pháp t?o gi?ng nói và mô t? máy th?c hi?n vi?c này," J. B. Degen,
Wien). Máy này t?o ra mô hình c?a lu?i và môi, cho phép t?o ra ph? âm thêm vào
cho nguyên âm. Nam 1837 Charles Wheatstone t?o ra 'máy nói' d?a trên thi?t k?
c?a von Kempelen, và d?n nam 1857
M. Faber ch? t?o máy 'Euphonia'. Máy c?a Wheatstone l?i du?c c?i ti?n Nam
1923 b?i Paget.
Nh?ng nam 1930, Phòng thí nghi?m Bell t?o ra máy VOCODER,
m?t máy phân tích và t?ng h?p gi?ng nói di?u khi?n b?ng bàn phím, du?c mô
t? là phát âm rõ ràng. Homer Dudley c?i ti?n c? máy này thành VODER, và trung
bày nó t?i Tri?n lãm Th? gi?i New York 1939.
Các máy t?ng h?p gi?ng nói b?ng k? thu?t di?n t?, trong giai do?n này, có
gi?ng nói không t? nhiên và khó nghe. Tuy nhiên, ch?t lu?ng t?ng h?p gi?ng nói
ngày càng du?c c?i ti?n, cho d?n ngày nay gi?ng phát âm c?a nhi?u h? th?ng có
ch?t lu?ng tuong duong gi?ng nói c?a ngu?i th?t.
Các h? th?ng t?ng h?p gi?ng nói d?u tiên du?c t?o ra vào nh?ng nam 1950 và
h? th?ng hoàn ch?nh d?u tiên ra d?i vào nam 1968.
Nam 1961, nhà v?t lý h?c John Larry Kelly, Jr
dùng máy tính IBM 704 d? t?ng h?p gi?ng nói, dây là s? ki?n dáng nh? trong
l?ch s? c?a phòng thí nghi?m Bell. Máy ghi âm và t?ng h?p gi?ng nói c?a Kelly
t?o ra bài hát Daisy Bell, v?i âm nh?c ph? h?a b?i Max Mathews. Vào lúc trình
di?n, Arthur C. Clarke dang tham b?n và d?ng nghi?p John Pierce ? khu thí
nghi?m Bell ? Murray Hill. Clarke dã b? ?n tu?ng m?nh b?i trình di?n c?a máy
phát âm và dã dùng hình ?nh này trong ti?u thuy?t và k?ch b?n phim c?a ông
2001: A Space Odyssey, [1] trong dó máy tính HAL 9000 hát cùng bài hát khi nó
s?p b? nhà du hành vu tr? Dave Bowman d?t vào tr?ng thái ng?.
[2]
Công ngh? t?ng h?p gi?ng nói dã ti?n hóa nhanh k? t? dó. Hi?n nay có hàng
tram h? th?ng t?ng h?p gi?ng nói, thuong m?i cung nhu t? do (
Tuy dã d?t du?c thành t?u trong t?ng h?p gi?ng nói b?ng k? thu?t di?n t?,
các nghiên c?u v?n dang du?c ti?n hành d? t?o ra b? t?ng h?p gi?ng nói co h?c,
mô ph?ng thanh qu?n c?a ngu?i, dùng trong robot d?ng ngu?i. Các b? t?ng h?p
gi?ng nói di?n t? b? gi?i h?n b?i ch?t lu?ng c?a loa, b? ph?n cu?i cùng t?o ra
âm thanh, dù tín hi?u di?n t? có hoàn h?o. Có hy v?ng r?ng b? thanh qu?n co khí
có th? t?o ra gi?ng nói chu?n hon loa thông thu?ng.
Công ngh? t?ng h?p gi?ng nói
Hai tính ch?t quan tr?ng c?a ch?t lu?ng h? th?ng t?ng h?p gi?ng nói là m?c
d? t? nhiên và m?c d? d? nghe. M?c d? t? nhiên c?a gi?ng nói t?ng h?p ch? d?n
s? gi?ng nhau gi?a gi?ng t?ng h?p và gi?ng nói t? nhiên c?a ngu?i th?t. M?c d?
d? nghe ch? d?n vi?c câu phát âm có th? hi?u du?c d? dàng không. M?t máy
t?ng h?p gi?ng nói lý tu?ng c?n v?a t? nhiên v?a d? nghe, và m?c tiêu xây
d?ng máy t?ng h?p gi?ng nói là làm gia tang d?n m?c t?i da hai tính ch?t này.
M?t s? h? th?ng thiên v? m?c d? d? nghe hon, ho?c m?c d? t? nhiên hon; tùy
thu?c vào m?c dích mà công ngh? du?c l?a ch?n. Có hai công ngh? chính du?c dùng
là t?ng h?p ghép n?i và t?ng h?p c?ng hu?ng t?n s?
; ngoài ra cung có m?t s? công ngh? khác.
T?ng h?p ghép n?i
T?ng h?p ghép n?i d?a trên vi?c n?i vào nhau các do?n c?a m?t gi?ng nói dã
du?c ghi âm. Thông thu?ng, t?ng h?p ghép n?i t?o ra gi?ng nói tuong d?i t?
nhiên.
Tuy nhiên, gi?ng nói t? nhiên du?c ghi âm có s? thay d?i t? l?n phát âm này
sang l?n phát âm khác, và công ngh? t? d?ng hóa vi?c ghép n?i các do?n c?a sóng
âm th?nh tho?ng t?o ra nh?ng ti?ng c? xát không t? nhiên ? ph?n ghép n?i. Có ba
ki?u t?ng h?p ghép n?i.
T?ng h?p ch?n don v?
T?ng h?p ch?n don v? dùng m?t co s? d? li?u l?n các gi?ng nói ghi âm (thông
thu?ng dài hon 1 gi? d?ng h? ghi âm). Trong lúc ghi âm, m?i câu phát bi?u du?c
tách ra thành các don v? khác nhu: các âm t? l?i don l?, âm ti?t, hình v?, t?,
nhóm t?, và câu van.
Thông thu?ng, vi?c tách ra nhu v?y c?n m?t máy nh?n d?ng ti?ng nói du?c d?t
? ch? d? kh?p v?i van b?n vi?t tuong ?ng v?i do?n ghi âm, và dùng d?n hi?n th?
sóng âm và ph? âm thanh.
M?t b?ng tra các don v? du?c l?p ra d?a trên các ph?n dã tách và các thông
s? âm h?c nhu t?n s? co b?n, th?i lu?ng, v? trí c?a âm ti?t, và âm t? l?i g?n
dó. Khi ch?y, các câu phát bi?u du?c t?o ra b?ng cách xác d?nh chu?i don v? phù
h?p nh?t t? co s? d? li?u. Quá trình này du?c g?i là ch?n don v?, và thu?ng c?n
dùng d?n cây quy?t d?nh d? th?c hi?n.
K? thu?t ch?n don v? t?o ra d? t? nhiên cao do không áp d?ng các k? thu?t
x? lý tín hi?u s? lên các do?n gi?ng nói dã ghi âm, tuy r?ng m?t s? h? th?ng có
th? áp d?ng x? lý tín hi?u t?i các do?n n?i gi?a các don v? d? làm li?n m?ch
k?t qu? sau khi
ghép n?i. Th?c t?, các h? th?ng ch?n don v? có th? t?o ra gi?ng nói không
th? phân bi?t du?c v?i ngu?i th?t. Tuy nhiên, d? d?t d? t? nhiên cao, thu?ng
c?n m?t co s? d? li?u l?n ch?a các don v? d? l?a ch?n; có th? lên t?i vài
gigabyte, tuong duong v?i hàng ch?c gi? ghi âm.
T?ng h?p âm kép
T?ng h?p âm kép dùng m?t co s? d? li?u gi?ng nói nh? ch?a t?t c? các âm kép
(chuy?n ti?p âm thanh) xu?t hi?n trong ngôn ng? dang xét. S? lu?ng âm kép ph?
thu?c vào d?c tính ghép âm h?c c?a ngôn ng?: ti?ng Tây Ban Nha có 800 âm kép,
ti?ng D?c có 2500. Trong t?ng h?p âm kép, ch? có m?t ví d? c?a âm kép du?c ch?a
trong co s? d? li?u. Khi ch?y, l?i van du?c ch?ng lên các don v? này b?ng k?
thu?t x? lý tín hi?u s? nhu mã tiên doán tuy?n tính, PSOLA hay MBROLA.
Ch?t lu?ng c?a âm thanh t?ng h?p theo cách này thu?ng không cao b?ng phuong
pháp ch?n don v? nhung t? nhiên hon t?ng h?p c?ng hu?ng t?n s?. T?ng h?p âm kép
t?o ra các ti?ng c? xát ? ph?n ghép n?i và dôi khi gi?ng nói ki?u robot do các
k? thu?t x? lý tín hi?u s? gây ra. L?i th? c?a phuong pháp này là kích
thu?c co s? d? li?u nh?. Các ?ng d?ng thuong m?i c?a phuong pháp này dang
ít d?n, tuy nhiên có nhi?u h? th?ng nhu này du?c phân phát t? do, và ph?c v?
cho nghiên c?u.
T?ng h?p chuyên ngành
T?ng h?p chuyên bi?t ghép n?i các t? và do?n van dã du?c ghi âm d? t?o ra
l?i phát bi?u. Nó du?c dùng trong các ?ng d?ng có các van b?n chuyên bi?t cho
m?t chuyên ngành, s? d?ng lu?ng t? v?ng h?n ch?, nhu các thông báo chuy?n bay
hay d? báo th?i ti?t.
Công ngh? này r?t don gi?n, và dã du?c thuong m?i hóa t? lâu, dã di vào các
d? v?t nhu d?ng h? bi?t nói hay máy tính b? túi bi?t nói. M?c d? t? nhiên c?a
các h? th?ng này có th? r?t cao vì s? lu?ng các câu nói không nhi?u và kh?p
v?i l?i van và âm di?u c?a gi?ng nói ghi âm. Tuy nhiên các h? th?ng này b? h?n
ch? b?i co s? d? li?u chuyên ngành, không ph?c v? m?i m?c dích mà ch? ho?t d?ng
v?i các câu nói mà chúng dã du?c l?p trình s?n.
T?ng h?p c?ng hu?ng t?n s?
T?ng h?p c?ng hu?ng t?n s? không s? d?ng b?t c? m?u gi?ng th?t nào khi
ch?y. Thay vào dó, tín hi?u âm thanh cho ra d?a trên m?t mô hình âm thanh. Các
thông s? nhu t?n s? co b?n, s? phát âm, và m?c d? ti?ng ?n du?c thay d?i theo
th?i gian d? t?o ra d?ng sóng cho gi?ng nói nhân t?o. Phuong pháp này dôi khi
còn du?c g?i là t?ng h?p d?a trên quy t?c, dù cho nhi?u h? th?ng ghép n?i m?u
âm thanh th?t cung có dùng các thành ph?n d?a trên quy t?c.
Nhi?u h? th?ng d?a trên t?ng h?p c?ng hu?ng t?n s? t?o ra gi?ng nói nhân
t?o, nhu gi?ng rôb?t, không t? nhiên, và phân bi?t rõ ràng v?i gi?ng ngu?i
th?t. Tuy nhiên d? t? nhiên cao không ph?i lúc nào cung là m?c dích c?a h?
th?ng và h? th?ng này cung có các uu di?m riêng c?a nó.
H? th?ng này nói khá d? nghe, ngay c? ? t?c d? cao, không có ti?ng c? xát
do ghép âm t?o ra. các h? th?ng này ho?t d?ng ? t?c d? cao, có th? hu?ng d?n
ngu?i khi?m th? nhanh chóng dò d?m trên máy tính, b?ng cách d?c to nh?ng gì
hi?n ra trên màn hình. Các h? th?ng này cung nh? g?n hon các h? thông ghép n?i
âm, vì không ph?i ch?a co s? d? li?u m?u âm thanh l?n. Nó có th? dùng trong các
h? th?ng nhúng khi b? nh? và t?c d? x? lý có h?n. H? th?ng này cung có kh? nang
di?u khi?n m?i khía c?nh c?a tín hi?u âm thanh di ra, no cho ra m?t d?i r?ng
các l?i van và ng? di?u,
và không ch? th? hi?n du?c câu nói thu?ng hay câu h?i, mà c? các tr?ng thái
tình c?m thông qua âm di?u c?a gi?ng nói.
Các ví d? v? các h? th?ng cho ra ng? di?u chính xác (nhung không cho ra
ngay l?p t?c sau khi nh?n d?u vào) là các công trình cu?i nh?ng nam 1970 c?a d?
choi Speak & Spell c?a Texas Instruments, và các trò choi video c?a SEGA d?u
nh?ng nam 1980 nhu: Astro Blaster, Zektor, Space Fury, và Star Trek. Hi?n v?n
chua có h? th?ng cho ra intonation chính xác ngay sau khi nh?n van b?n d?u vào.
T?ng h?p mô ph?ng phát âm
T?ng h?p mô ph?ng phát âm là các k? thu?t t?ng h?p gi?ng nói d?a trên mô
hình máy tính c?a
co quan phát âm
c?a ngu?i và quá trình phát âm x?y ra t?i dó. H? th?ng t?ng h?p mô ph?ng
phát âm d?u tiên là ASY, thu?ng du?c dùng cho các thí nghi?m trong nghiên c?u,
du?c phát tri?n ?
phòng thí nghi?m Haskins
vào gi?a nh?ng nam 1970 b?i
Philip Rubin,
Tom Baer, và Paul Mermelstein. ASY d?a trên mô hình co quan phát âm dã du?c
t?o ra b?i phòng thí nghi?m Bell vào nh?ng nam 1960 và 1970 b?i Paul
Mermelstein,
Cecil Coker, và các d?ng nghi?p khác. T?ng h?p mô ph?ng phát âm dã t?ng ch?
là h? th?ng dành cho nghiên c?u khoa h?c cho mãi d?n nh?ng nam g?n dây. Lý
do là r?t ít mô hình t?o ra âm thanh ch?t lu?ng d? cao ho?c có th? ch?y
hi?u qu? trên các ?ng d?ng thuong m?i. M?t ngo?i l? là h? th?ng d?a trên
NeXT
; v?n du?c phát tri?n và thuong m?i hóa b?i
Trillium Sound Research Inc,
?
Calgary,
Alberta,
Canada.
Dây là m?t công ty tách ra t?
D?i h?c Calgary
noi các nghiên c?u ban d?u dã du?c th?c hi?n. Theo sau các v? chuy?n nhu?ng
các t?ng ph?n c?a
NeXT
(b?t d?u t?
Steve Jobs
vào cu?i nh?ng nam 1980 và vi?c h?p nh?t v?i
Apple
nam
1997),
ph?n m?m c?a Trillium du?c phân phát v?i gi?y phéo t? do
GPL.
D? án
gnuspeech,
m?t d? án c?a
GNU,
ti?p t?c phát tri?n ph?n m?m này. Ph?n m?m g?c
NeXT
và các chuy?n d?i sang cho
Mac OS/X
và
GNUstep
trong
GNU/Linux
có th? tìm th?y t?i
trang GNU savannah
; chúng d?u kèm theo tài li?u hu?ng d?n tr?c tuy?n và các bài vi?t liên
quan d?n lý thuy?t n?n t?ng c?a công trình. H? th?ng, v?n du?c thuong m?i hóa
l?n
d?u vào nam
1994,
t?o ra m?t máy t?ng h?p gi?ng nói d?a trên mô ph?ng phát âm hoàn ch?nh, d?a
trên mô hình ?ng d?n sóng tuong duong v?i co quan phát âm c?a ngu?i. Nó du?c
di?u khi?n b?i Mô hình Ph?n Riêng bi?t c?a Carré; b?n thân mô hình này l?i
d?a trên công trình c?a
Gunnar Fant
và các ngu?i khác ?
Phòng thí nghi?m Công ngh? Gi?ng nói Stockholm
thu?c
Vi?n C?ng ngh? Hoàng gia Th?y Di?n
v? t?ng h?p gi?ng nói c?ng hu?ng t?n s?. Công trình này cho th?y các c?ng
hu?ng t?n s? trong ?ng c?ng hu?ng có th? du?c di?u khi?n b?ng cách thay d?i tám
tham s? tuong d?ng v?i các cách phát âm t? nhiên c?a co quan phát âm c?a
ngu?i. H? th?ng bao g?m m?t t? di?n phát âm cùng v?i các quy t?c phát âm tùy
thu?c
ng? c?nh d? giúp ghép n?i âm di?u và t?o ra các tham s? phát âm; mô ph?ng
theo nh?p di?u và ng? di?u thu du?c t? các k?t qu? nghiên c?u
ng? âm h?c.
T?ng h?p mô ph?ng phát âm
T?ng h?p mô ph?ng phát âm là các k? thu?t t?ng h?p gi?ng nói d?a trên mô
hình máy tính c?a co quan phát âm c?a ngu?i và quá trình phát âm x?y ra t?i
dó. H? th?ng t?ng h?p mô ph?ng phát âm d?u tiên là ASY, thu?ng du?c dùng cho
các thí nghi?m trong nghiên c?u,
du?c phát tri?n ?
phòng thí nghi?m Haskins vào gi?a nh?ng nam 1970 b?i Philip Rubin, Tom
Baer, và Paul Mermelstein. ASY d?a trên mô hình co quan phát âm dã du?c t?o ra
b?i phòng thí nghi?m Bell vào nh?ng nam 1960 và 1970 b?i Paul Mermelstein,
Cecil Coker, và các d?ng nghi?p khác. T?ng h?p mô ph?ng phát âm dã t?ng ch? là
h? th?ng dành cho nghiên c?u khoa h?c cho mãi d?n nh?ng nam g?n dây. Lý do là
r?t ít mô hình t?o ra âm thanh ch?t lu?ng d? cao ho?c có th? ch?y hi?u qu? trên
các ?ng d?ng thuong m?i. M?t ngo?i l? là h? th?ng d?a trên NeXT ; v?n du?c phát
tri?n và thuong m?i hóa b?i Trillium Sound Research Inc, ? Calgary, Alberta,
Canada.
Dây là m?t công ty tách ra t? D?i h?c Calgary noi các nghiên c?u ban d?u dã
du?c th?c hi?n. Theo sau các v? chuy?n nhu?ng các t?ng ph?n c?a NeXT (b?t d?u
t? Steve Jobs vào cu?i nh?ng nam 1980 và vi?c h?p nh?t v?i Apple nam 1997),
ph?n m?m c?a Trillium du?c phân phát v?i gi?y phéo t? do GPL. D? án gnuspeech,
m?t d? án c?a GNU, ti?p t?c phát tri?n ph?n m?m này. Ph?n m?m g?c NeXT và các
chuy?n d?i sang cho Mac OS/X và GNUstep Trong GNU/Linux có th? tìm th?y t?i
trang GNU savannah
; chúng d?u kèm theo tài li?u hu?ng d?n tr?c tuy?n và các bài vi?t liên
quan d?n lý thuy?t n?n t?ng c?a công trình. H? th?ng, v?n du?c thuong m?i hóa
l?n d?u vào nam 1994,
t?o ra m?t máy t?ng h?p gi?ng nói d?a trên mô ph?ng phát âm hoàn ch?nh, d?a
trên mô hình ?ng d?n sóng tuong duong v?i co quan phát âm c?a ngu?i. Nó du?c
di?u khi?n b?i Mô hình Ph?n Riêng bi?t c?a Carré; b?n thân mô hình này l?i
d?a trên công trình c?a Gunnar Fant và các ngu?i khác ? Phòng thí nghi?m Công
ngh? Gi?ng nói Stockholm thu?c Vi?n C?ng ngh? Hoàng gia Th?y Di?n v? t?ng h?p
gi?ng nói c?ng hu?ng t?n s?. Công trình này cho th?y các c?ng hu?ng t?n s?
trong ?ng c?ng hu?ng có th? du?c di?u khi?n b?ng cách thay d?i tám tham s?
tuong d?ng v?i các cách phát âm t? nhiên c?a co quan phát âm c?a ngu?i. H?
th?ng bao g?m m?t t? di?n phát âm cùng v?i các quy t?c phát âm tùy thu?c ng?
c?nh d? giúp ghép n?i âm di?u và t?o ra các tham s? phát âm; mô ph?ng theo nh?p
di?u và ng? di?u thu du?c t? các k?t qu? nghiên c?u ng? âm h?c.
T?ng h?p lai
Các h? th?ng t?ng h?p lai k?t h?p các y?u t? c?a t?ng h?p c?ng hu?ng t?n s?
v?i t?ng h?p ghép n?i d? gi?m thi?u các ti?ng c? xát khi ghép n?i các do?n âm
thanh.
M?t ví d? là RecSimCat, phát tri?n b?i Shakti Singh Parmar có th? t?o ra
gi?ng d? nghe và t? nhiên.[
T?ng h?p d?a trên HMM
T?ng h?p d?a trên HMM là m?t phuong pháp d?a vào
mô hình Markov ?n
(HMM, vi?t t?t cho thu?t ng? ti?ng Anh Hidden Markov model). Trong h? th?ng
này,
ph? t?n s?
c?a gi?ng nói,
t?n s? co b?n,
và th?i lu?ng d?u du?c mô ph?ng cùng lúc b?i HMM.
D?ng sóng
c?a gi?ng nói du?c t?o t? mô hình Markov ?n d?a trên tiêu chí
kh? th?c c?c d?i.
Chu?n hóa van b?n
Quá trình chu?n hóa van b?n thu?ng không don gi?n. Lý do là các van b?n
thu?ng ch?a nhi?u t? cùng ch?, s? và vi?t t?t dòi h?i hi?u d? di?n d?t l?i
trong van b?n d?y d?.
Trong m?t s? ngôn ng?, các t? có th? du?c phát âm khác nhau tùy theo ng?
c?nh. Da s? h? th?ng t?ng h?p gi?ng nói không t?o ra th? hi?n van ph?m cho van
b?n, vì quá trình này hi?n chua có công ngh? dáng tin c?y. Thay vào dó, nhi?u
cách l?n mò du?c dùng d? phân bi?t các cách phát âm, nhu tìm các t? k? c?n hay
dùng th?ng kê v? t?n s? xu?t hi?n.
Vi?c ch?n cách phát âm s? cung là m?t v?n d?. Lý do là cung có nhi?u cách
ph?t âm s? tùy theo van c?nh. Nhu 1325 có th? d?c "m?t nghìn ba tram hai muoi
nham" n?u nó là m?t s? t? nhiên,
nhung cung có th? là "m?t ba hai nam" n?u nó là b?n s? m?t mã ngân kho?n.
Thu?ng h? th?ng t?ng h?p gi?ng nói có th? doán van c?nh b?ng vi?c quan sát các
t? k? c?n, các s? hay d?u câu bên c?nh, ho?c dùng tru?ng h?p m?c d?nh khi không
th? phân d?nh.
Tuong t?, các cách vi?t t?t cung có th? mang nhi?u nghia, tùy thu?c quy u?c
c?a ngu?i vi?t.
Van b?n sang âm v?
Các h? th?ng t?ng h?p gi?ng nói dùng hai cách co b?n d? xác d?nh cách phát
âm cho m?t t?, m?t quá trình còn du?c g?i là chuy?n d?i van b?n-sang-âm v? hay
t? v?-sang-âm v?, vì âm v? là thu?t ng? dùng b?i các nhà ngôn ng? h?c d? mô t?
các âm khác nhau trong ngôn ng?.
Cách th? nh?t, và don gi?n nh?t, là d?a vào t? di?n, s? d?ng m?t t? di?n
l?n ch?a t?t c? các t? c?a m?t ngôn ng? và ch?a cách phát âm dúng tuong ?ng cho
t?ng t?, luu trong máy tính. Vi?c xác d?nh cách phát âm dúng cho m?t t? ch? don
gi?n là tra trong t? di?n và thay do?n van b?n b?ng mã phát âm dã ghi trong t?
di?n.
Cách th? hai là d?a trên quy t?c, s? d?ng các quy t?c phát âm d? tìm ra
cách phát âm tuong ?ng cho m?i t? phù h?p v?i quy t?c.
M?i cách d?u có uu di?m và nhu?c di?m. cách d?a trên t? di?n nhanh và chính
xác, nhung s? không ho?t d?ng n?u t? c?n phát âm không có trong t? di?n và lu?ng
t? v?ng c?n luu là l?n. Cách dùng quy t?c ho?t d?ng v?i m?i van b?n (mi?n
là phù h?p v?i quy t?c) nhung d? ph?c t?p c?a các quy t?c có th? tang cao n?u
ngôn ng? có nhi?u tru?ng h?p b?t quy t?c trong phát âm. H?u h?t các h? th?ng
t?ng h?p gi?ng nói d?u dùng k?t h?p c? hai cách.
M?t s? ngôn ng?, nhu
ti?ng Tây Ban Nha hay ti?ng Vi?t, có h? th?ng vi?t d?a trên cách phát âm
m?t cách r?t có quy t?c, và vi?c tiên doán cách phát âm t? cách vi?t thu?ng có
t? l? thành công cao. Các h? th?ng t?ng h?p gi?ng nói cho các ngôn ng? này
thu?ng dùng ch? y?u cách d?a trên quy t?c, ch? tra t? di?n m?t vài t? d?c bi?t
nhu tên vay mu?n t? nu?c ngoài.
M?t s? ngôn ng? khác, nhu ti?ng Anh, có h? th?ng phát âm r?t b?t quy t?c,
thu?ng c?n h? th?ng t?ng h?p gi?ng nói d?a ch? y?u trên t? di?n và dùng các quy
t?c cho nh?ng t? không có trong t? di?n.
Ngôn ng? dánh d?u cho t?ng h?p gi?ng nói
Có nhi?u ngôn ng? dánh d?u dã du?c hình thành cho vi?c t?o gi?ng nói t? van
b?n, phù h?p v?i chu?n XML.
M?t ví d? cho ngôn ng? ki?u này là SSML du?c W3C d? xu?t. Các ngôn ng? dánh
d?u cu hon có SABLE Và JSML.
Các ngôn ng? này d?u du?c d? xu?t là chu?n chung, nhung chua có ngôn ng?
nào du?c dùng d? r?ng rãi d? thi?t l?p thành chu?n chung.
M?t t?p con c?a CSS 2 ch?a ACSS cung ph?c v? m?c dích t?ng h?p gi?ng nói.
Ngôn ng? dánh d?u t?ng h?p gi?ng nói khác v?i ngôn ng? dánh d?u dàm tho?i
(nhu
VoiceXML).
Các ngôn ng? dánh d?u dàm tho?i, ngoài ch?a các thông tin chuy?n van b?n
sang gi?ng nói, còn có các th? cho phép nh?n d?ng gi?ng nói, qu?n lý dàm tho?i
và thông tin v? quay s? di?n tho?i b?ng âm thanh.
Apple
H? th?ng t?ng h?p gi?ng nói d?u tiên du?c tích h?p vào trong m?t h? di?u
hành là Macintalk c?a Máy tính Apple nam 1984. Apple là m?t trong nh?ng nhà s?n
xu?t d?u tiên dua h? th?ng t?ng h?p gi?ng nói vào các h? di?u hành thuong m?i.
Trong nh?ng nam 1990, các gi?ng nói c?a Apple du?c t?ng h?p t? các m?u t?
nhiên. Tuy nhiên g?n dây, Apple dã thêm các m?u gi?ng nói t?ng h?p, là Vicki và
Bruce - d?t tên theo giáo su và nghiên c?u sinh t?i khoa ngôn ng? h?c UCLA,
nh?ng ngu?i dã cung c?p các mô hình gi?ng nói này. Các ph?n m?m d?u tiên
ch? có ý d?nh gây s? tò mò cho khách hàng và không du?c Apple h? tr? tr?c ti?p;
tuy nhiên h? th?ng t?ng h?p gi?ng nói c?a máy tính Macintosh
dã ti?n hóa thành m?t chuong trình du?c h? tr? d?y d? cho ngu?i khi?m th?.
AmigaOS
H? di?u hành th? hai trên th? tru?ng tích h?p h? th?ng t?ng h?p gi?ng nói
là AmigaOS nam
1985.
H? th?ng này du?c c?p phép cho Commodore International t? m?t bên th? ba là
m?t hãng ph?n m?m ( Don't Ask Software, nay là Softvoice, Inc.) và nó có m?t h?
th?ng mô ph?ng gi?ng ngu?i hoàn ch?nh, có c? gi?ng nam và gi?ng n? v?i các âm
s?c khác nhau, dùng các tính nang nâng cao c?a các chip di?n t? trong ph?n c?ng
Amiga. Nó du?c chia làm hai ph?n: ph?n d?c bình lu?n và m?t thu vi?n d?ch
thu?t. Ph?n m?m Speak Handler c?a Amiga có ph?n d?ch thu?t van b?n sang ti?ng
nói, dùng h? th?ng t?ng h?p âm v? ARPAbet. AmigaOS coi h? th?ng t?ng h?p gi?ng
nói nhu m?t thi?t b? ph?n c?ng ?o, nên ngu?i dùng có th? chuy?n tín hi?u ra t?
ph?n m?m khác d?n nó gi?ng nhu d?n máy in hay màn hình. M?t s? ph?n m?m trong
Amiga, nhu trình so?n th?o van b?n, dùng nhi?u h? th?ng này.
Windows
Các h? di?u hành Windows hi?n d?i dùng các h? th?ng t?ng h?p gi?ng nói d?a
trên SAPI4 và SAPI5, kèm theo máy nh?n d?ng gi?ng nói. SAPI 4.0 có m?t trên các
h? di?u hành nhu Windows 9x.
Nhi?u ph?n m?m, nhu mIRC, dùng nhi?u ch?c nang trong SAPI 4.0 hay SAPI 5.0.
Windows XP có ph?n m?m Narrator. H?u h?t các ph?n m?m tuong thích v?i Windows
nhu Notepad, Office hay Adobe Acrobat có th? dùng các tính nang t?ng h?p gi?ng
nói; tùy theo l?a ch?n trên trình don sau khi dã cài d?t. Chúng cung c?p h? tr?
cho ngu?i khi?m th?.
M?t ví d? v? vi?c SAPI 5 cho phép m?t ph?n m?m k?t h?p công ngh? c?a
Microsoft thành m?t màn hình n?n có tính tuong tác cao là Talking desktop. Ph?n
m?m này k?t h?p ch?c nang nh?n d?ng gi?ng nói v?i các phát âm c?a SAPI 5.
Microsoft Speech Server là m?t gói hoàn ch?nh d? t?ng h?p và nh?n d?ng
gi?ng nói, và có th? ?ng d?ng cho các h? th?ng liên l?c di?n tho?i có máy tính
dùng Windows.
GNU/Linux Có r?t nhi?u h? th?ng t?ng h?p gi?ng nói cho GNU/Linux và d?u
có mã ngu?n m?. Ví d? bao g?m
Festival, c?a D?i h?c Edinburgh,
hay gnuspeech, c?a T? ch?c Ph?n m?m T? do.
TI-99/4 và TI-99/4A
TI-99/4 (1979) và TI-99/4A (1981) có th? d?c van b?n ? ch? d? d?c t?ng ch?
và d?c c? do?n.
Trong máy TI Extended BASIC, l?nh CALL SAY có th? du?c dùng. Ví d?, CALL
SAY("I AM A TEXAS INSTRUMENTS T I 99 4 A HOME COMPUTER") s? khi?n nó nói v? b?n
thân v?i gi?ng Texas. Trong h? th?ng này, ? ch? d? d?c c? t?, các t? l? s?
du?c phát âm b?ng cách d?c t?ng ch? cái. ? ch? d? d?c t?ng ch? cái, ch?t lu?ng
gi?m h?n, dù h? th?ng s? d?c b?t c? van b?n nào g?i d?n nó.
TI-99/4 (1979) và TI-99/4A (1981) ch?a các b? vi x? lý 16-bit.
Bên th? ba
Các h? th?ng phát tri?n b?i bên th? ba có th? du?c tích h?p vào trong các
h? di?u hành
(tr? SAPI) là
Lernout & Hauspie
(LH)
TTS 3000,
1st Read It Aloud!,
Total Speech,
PCVoz,
TextAloud,
Read Genius,
Speech RealSpeak,
IBM ViaVoice
và
Dolphin Orpheus
[1].
Name: Nguyen Hoang Bao Vu
Home: 210C Hiep Binh Chanh tenement. Thu Duc district Ho Chi Minh City Viet
Nam
Home Phone: 7262214
Cell-phone: 0989350014
Yahoo ID: nguyenhoangbaovu
MSN ID: nguyenhoangbaovu
Skype ID: nguyenhoangbaovu
Blog: 360.yahoo.com/nguyenhoangbaovu
----------------------------------------------------------------------------
No virus found in this incoming message.
Checked by AVG Free Edition.
Version: 7.5.432 / Virus Database: 268.15.26/594 - Release Date: 12/20/2006
3:54 PM
- References:
- [SMCC] bo tong hop giong noi
- From: Nguyen Hoang Bao Vu
- [SMCC] Re: bo tong hop giong noi [#Filter Mails not addressed to local Domains (bcc)#]
- From: Dang Hoai Phuc
Other related posts:
- » [SMCC] Re: bo tong hop giong noi [#Filter Mails not addressed to local Domains (bcc)#]
- » [SMCC] Re: bo tong hop giong noi [#Filter Mails not addressed to local Domains (bcc)#]
- [SMCC] bo tong hop giong noi
- From: Nguyen Hoang Bao Vu
- [SMCC] Re: bo tong hop giong noi [#Filter Mails not addressed to local Domains (bcc)#]
- From: Dang Hoai Phuc