[SMCC] bo tong hop giong noi

Bài vi?t này su t?m và g?t dua khá công phu.

N?i dung thì h?t chê.

Dài cung ph?i n?.

Xin b?n  s?p s?p th?i gian r?i rãi kho?ng trên 1 gi? d? có th? d?c và ng?m v? 
bài phân tích khoa h?c v? ch? d? g?n li?n v?i ngu?i dùng vi tính khi?m th? mình.



Trên máy tính, t?ng h?p gi?ng nói là vi?c t?o ra gi?ng nói c?a ngu?i t? d?u vào 
là van b?n hay các mã hóa vi?c phát âm. H? th?ng th?c hi?n vi?c này còn g?i là 
máy t?ng h?p gi?ng nói, có th? là h? th?ng ph?n m?m ho?c ph?n c?ng. H? th?ng 
này còn du?c g?i là van b?n-sang-ti?ng nói (text-to-speech, TTS); tuy r?ng 
không ph?i h? th?ng t?ng h?p gi?ng nói nào cung có d?u vào là van b?n (nhi?u h? 
th?ng thu nh?n mã hóa cách phát âm, ví d? mã IPA, nhu d?u vào). Các h? th?ng 
này có nhi?u ?ng d?ng. Ví d? nhu h? th?ng này có th? giúp ngu?i khi?m th? nghe 
du?c máy d?c ra van b?n; d?c bi?t là các van b?n có th? x? lý trên máy tính. H? 
th?ng nhu v?y có th? l?p d?t trong ph?n m?m x? lý van b?n hay trình duy?t m?ng.

 

T?ng quan

 

M?t máy t?ng h?p gi?ng nói bao g?m hai ph?n: ngo?i di?n và h?u tru?ng. Ph?n 
ngo?i di?n nh?n d?u vào ? d?ng van b?n r?i cho d?u ra là th? hi?n bi?u tu?ng 
ngôn ng? c?a van b?n (t?c là m?t cách mã hóa cách phát âm van b?n). Ph?n h?u 
tru?ng nh?n l?y th? hi?n bi?u tu?ng ngôn ng? nhu d?u vào và cho ra gi?ng nói 
t?ng h?p ? d?ng sóng âm thanh.

 

Ph?n ngo?i di?n có hai nhi?m v? chính. Tru?c tiên, nó nh?n van b?n và chuy?n 
d?i các ký t? nhu các ch? s? hay cách vi?t t?t thành d?ng vi?t d?y d?. Quá 
trình này g?i là chu?n hóa van b?n, hay ti?n x? lý. Sau dó nó cho ra mã phát âm 
?ng v?i t?ng t?, r?i phân chia và dánh d?u van b?n thành t?ng do?n van, nhóm 
t?, m?nh d?, hay câu van.

Quá trình chuy?n van b?n sang mã phát âm du?c g?i là van b?n-sang-âm v?. K?t 
h?p mã phát âm và thông tin do?n van t?o nên d?u ra cu?i cùng th? hi?n bi?u 
tu?ng ngôn ng?.

 

Ph?n h?u tru?ng, nh?n l?y th? hi?n bi?u tu?ng ngôn ng? r?i chuy?n nó thành âm 
thanh. Ph?n này thu?ng du?c g?i là máy t?ng h?p. Có nhi?u k? thu?t t?ng h?p, 
du?c mô t? bên du?i.

 

L?ch s?

 

T? lâu tru?c khi k? thu?t x? lý tín hi?u b?ng thi?t b? di?n t? hi?n d?i ra d?i, 
các nhà nghiên c?u gi?ng nói dã c? g?ng xây d?ng các máy móc b?t chu?c gi?ng 
nói c?a ngu?i. Các ví d? d?u tiên c?a các máy này du?c ch? t?o b?i Gerbert ? 
Aurillac

(

1003), Albertus Magnus

(

1198 - 1280), và Roger Bacon ( 1214 - 1294).

 

Nam 1779, nhà khoa h?c ngu?i Dan M?ch Christian Kratzenstein, lúc dó làm vi?c 
t?i Vi?n Hàn lâm Khoa h?c Nga, xây d?ng m?t mô hình có th? b?t chu?c gi?ng nói 
ngu?i v?i nam nguyên âm ([a], [e], [I], [o] và [u]). Máy này sau dó du?c c?i 
ti?n thành 'Máy Phát âm Co khí-Âm h?c' c?a Wolfgang von Kempelen ? Wien, Áo, 
du?c mô t? trong bài báo nam 1791 mang t?a d? Mechanismus der menschlichen 
Sprache nebst der Beschreibung seiner sprechenden Maschine

("phuong pháp t?o gi?ng nói và mô t? máy th?c hi?n vi?c này," J. B. Degen, 
Wien). Máy này t?o ra mô hình c?a lu?i và môi, cho phép t?o ra ph? âm thêm vào 
cho nguyên âm. Nam 1837 Charles Wheatstone t?o ra 'máy nói' d?a trên thi?t k? 
c?a von Kempelen, và d?n nam 1857

M. Faber ch? t?o máy 'Euphonia'. Máy c?a Wheatstone l?i du?c c?i ti?n  Nam 1923 
b?i Paget.

 

Nh?ng nam 1930, Phòng thí nghi?m Bell t?o ra máy VOCODER,

m?t máy phân tích và t?ng h?p gi?ng nói di?u khi?n b?ng bàn phím, du?c mô t? là 
phát âm rõ ràng. Homer Dudley c?i ti?n c? máy này thành VODER, và trung bày nó 
t?i Tri?n lãm Th? gi?i New York 1939.

 

Các máy t?ng h?p gi?ng nói b?ng k? thu?t di?n t?, trong giai do?n này, có gi?ng 
nói không t? nhiên và khó nghe. Tuy nhiên, ch?t lu?ng t?ng h?p gi?ng nói ngày 
càng du?c c?i ti?n, cho d?n ngày nay gi?ng phát âm c?a nhi?u h? th?ng có ch?t 
lu?ng tuong duong gi?ng nói c?a ngu?i th?t.

 

Các h? th?ng t?ng h?p gi?ng nói d?u tiên du?c t?o ra vào nh?ng nam 1950 và h? 
th?ng hoàn ch?nh d?u tiên ra d?i vào nam 1968.

 

Nam 1961, nhà v?t lý h?c John Larry Kelly, Jr

dùng máy tính IBM 704 d? t?ng h?p gi?ng nói, dây là s? ki?n dáng nh? trong l?ch 
s? c?a phòng thí nghi?m Bell. Máy ghi âm và t?ng h?p gi?ng nói c?a Kelly t?o ra 
bài hát Daisy Bell, v?i âm nh?c ph? h?a b?i Max Mathews. Vào lúc trình di?n, 
Arthur C. Clarke dang tham b?n và d?ng nghi?p John Pierce ? khu thí nghi?m Bell 
? Murray Hill. Clarke dã b? ?n tu?ng m?nh b?i trình di?n c?a máy phát âm và dã 
dùng hình ?nh này trong ti?u thuy?t và k?ch b?n phim c?a ông 2001: A Space 
Odyssey, [1] trong dó máy tính HAL 9000 hát cùng bài hát khi nó s?p b? nhà du 
hành vu tr? Dave Bowman d?t vào tr?ng thái ng?.

[2]

 

Công ngh? t?ng h?p gi?ng nói dã ti?n hóa nhanh k? t? dó. Hi?n nay có hàng tram 
h? th?ng t?ng h?p gi?ng nói, thuong m?i cung nhu t? do (

 

Tuy dã d?t du?c thành t?u trong t?ng h?p gi?ng nói b?ng k? thu?t di?n t?, các 
nghiên c?u v?n dang du?c ti?n hành d? t?o ra b? t?ng h?p gi?ng nói co h?c, mô 
ph?ng thanh qu?n c?a ngu?i, dùng trong robot d?ng ngu?i. Các b? t?ng h?p gi?ng 
nói di?n t? b? gi?i h?n b?i ch?t lu?ng c?a loa, b? ph?n cu?i cùng t?o ra âm 
thanh, dù tín hi?u di?n t? có hoàn h?o. Có hy v?ng r?ng b? thanh qu?n co khí có 
th? t?o ra gi?ng nói chu?n hon loa thông thu?ng.

 

Công ngh? t?ng h?p gi?ng nói

 

Hai tính ch?t quan tr?ng c?a ch?t lu?ng h? th?ng t?ng h?p gi?ng nói là m?c d? 
t? nhiên và m?c d? d? nghe. M?c d? t? nhiên c?a gi?ng nói t?ng h?p ch? d?n s? 
gi?ng nhau gi?a gi?ng t?ng h?p và gi?ng nói t? nhiên c?a ngu?i th?t. M?c d? d? 
nghe ch? d?n vi?c câu phát âm có th? hi?u du?c d? dàng không. M?t máy

t?ng h?p gi?ng nói lý tu?ng c?n v?a t? nhiên v?a d? nghe, và m?c tiêu xây d?ng 
máy t?ng h?p gi?ng nói là làm gia tang d?n m?c t?i da hai tính ch?t này.

M?t s? h? th?ng thiên v? m?c d? d? nghe hon, ho?c m?c d? t? nhiên hon; tùy 
thu?c vào m?c dích mà công ngh? du?c l?a ch?n. Có hai công ngh? chính du?c dùng

là t?ng h?p ghép n?i và t?ng h?p c?ng hu?ng t?n s?

; ngoài ra cung có m?t s? công ngh? khác.

 

T?ng h?p ghép n?i

 

T?ng h?p ghép n?i d?a trên vi?c n?i vào nhau các do?n c?a m?t gi?ng nói dã du?c 
ghi âm. Thông thu?ng, t?ng h?p ghép n?i t?o ra gi?ng nói tuong d?i t? nhiên.

Tuy nhiên, gi?ng nói t? nhiên du?c ghi âm có s? thay d?i t? l?n phát âm này 
sang l?n phát âm khác, và công ngh? t? d?ng hóa vi?c ghép n?i các do?n c?a sóng 
âm th?nh tho?ng t?o ra nh?ng ti?ng c? xát không t? nhiên ? ph?n ghép n?i. Có ba 
ki?u t?ng h?p ghép n?i.

 

T?ng h?p ch?n don v?

 

T?ng h?p ch?n don v? dùng m?t co s? d? li?u l?n các gi?ng nói ghi âm (thông 
thu?ng dài hon 1 gi? d?ng h? ghi âm). Trong lúc ghi âm, m?i câu phát bi?u du?c 
tách ra thành các don v? khác nhu: các âm t? l?i don l?, âm ti?t, hình v?, t?, 
nhóm t?, và câu van.

Thông thu?ng, vi?c tách ra nhu v?y c?n m?t máy nh?n d?ng ti?ng nói du?c d?t ? 
ch? d? kh?p v?i van b?n vi?t tuong ?ng v?i do?n ghi âm, và dùng d?n hi?n th? 
sóng âm và ph? âm thanh.

M?t b?ng tra các don v? du?c l?p ra d?a trên các ph?n dã tách và các thông s? 
âm h?c nhu t?n s? co b?n, th?i lu?ng, v? trí c?a âm ti?t, và âm t? l?i g?n dó. 
Khi ch?y, các câu phát bi?u du?c t?o ra b?ng cách xác d?nh chu?i don v? phù h?p 
nh?t t? co s? d? li?u. Quá trình này du?c g?i là ch?n don v?, và thu?ng c?n 
dùng d?n cây quy?t d?nh d? th?c hi?n.

 

K? thu?t ch?n don v? t?o ra d? t? nhiên cao do không áp d?ng các k? thu?t x? lý 
tín hi?u s? lên các do?n gi?ng nói dã ghi âm, tuy r?ng m?t s? h? th?ng có th? 
áp d?ng x? lý tín hi?u t?i các do?n n?i gi?a các don v? d? làm li?n m?ch k?t 
qu? sau khi

ghép n?i. Th?c t?, các h? th?ng ch?n don v? có th? t?o ra gi?ng nói không th? 
phân bi?t du?c v?i ngu?i th?t. Tuy nhiên, d? d?t d? t? nhiên cao, thu?ng c?n 
m?t co s? d? li?u l?n ch?a các don v? d? l?a ch?n; có th? lên t?i vài gigabyte, 
tuong duong v?i hàng ch?c gi? ghi âm.

 

T?ng h?p âm kép

 

T?ng h?p âm kép dùng m?t co s? d? li?u gi?ng nói nh? ch?a t?t c? các âm kép 
(chuy?n ti?p âm thanh) xu?t hi?n trong ngôn ng? dang xét. S? lu?ng âm kép ph? 
thu?c vào d?c tính ghép âm h?c c?a ngôn ng?: ti?ng Tây Ban Nha có 800 âm kép, 
ti?ng D?c có 2500. Trong t?ng h?p âm kép, ch? có m?t ví d? c?a âm kép du?c ch?a 
trong co s? d? li?u. Khi ch?y, l?i van du?c ch?ng lên các don v? này b?ng k? 
thu?t x? lý tín hi?u s? nhu mã tiên doán tuy?n tính, PSOLA hay MBROLA.

 

Ch?t lu?ng c?a âm thanh t?ng h?p theo cách này thu?ng không cao b?ng phuong 
pháp ch?n don v? nhung t? nhiên hon t?ng h?p c?ng hu?ng t?n s?. T?ng h?p âm kép 
t?o ra các ti?ng c? xát ? ph?n ghép n?i và dôi khi gi?ng nói ki?u robot do các 
k? thu?t x? lý tín hi?u s? gây ra. L?i th? c?a phuong pháp này là kích

thu?c co s? d? li?u nh?. Các ?ng d?ng thuong m?i c?a phuong pháp này dang ít 
d?n, tuy nhiên có nhi?u h? th?ng nhu này du?c phân phát t? do, và ph?c v? cho 
nghiên c?u.

 

T?ng h?p chuyên ngành

 

T?ng h?p chuyên bi?t ghép n?i các t? và do?n van dã du?c ghi âm d? t?o ra l?i 
phát bi?u. Nó du?c dùng trong các ?ng d?ng có các van b?n chuyên bi?t cho m?t 
chuyên ngành, s? d?ng lu?ng t? v?ng h?n ch?, nhu các thông báo chuy?n bay hay 
d? báo th?i ti?t.

 

Công ngh? này r?t don gi?n, và dã du?c thuong m?i hóa t? lâu, dã di vào các d? 
v?t nhu d?ng h? bi?t nói hay máy tính b? túi bi?t nói. M?c d? t? nhiên c?a

các h? th?ng này có th? r?t cao vì s? lu?ng các câu nói không nhi?u và kh?p v?i 
l?i van và âm di?u c?a gi?ng nói ghi âm. Tuy nhiên các h? th?ng này b? h?n ch? 
b?i co s? d? li?u chuyên ngành, không ph?c v? m?i m?c dích mà ch? ho?t d?ng v?i 
các câu nói mà chúng dã du?c l?p trình s?n.

 

T?ng h?p c?ng hu?ng t?n s?

 

T?ng h?p c?ng hu?ng t?n s? không s? d?ng b?t c? m?u gi?ng th?t nào khi ch?y. 
Thay vào dó, tín hi?u âm thanh cho ra d?a trên m?t mô hình âm thanh. Các thông 
s? nhu t?n s? co b?n, s? phát âm, và m?c d? ti?ng ?n du?c thay d?i theo th?i 
gian d? t?o ra d?ng sóng cho gi?ng nói nhân t?o. Phuong pháp này dôi khi còn 
du?c g?i là t?ng h?p d?a trên quy t?c, dù cho nhi?u h? th?ng ghép n?i m?u âm 
thanh th?t cung có dùng các thành ph?n d?a trên quy t?c.

 

Nhi?u h? th?ng d?a trên t?ng h?p c?ng hu?ng t?n s? t?o ra gi?ng nói nhân t?o, 
nhu gi?ng rôb?t, không t? nhiên, và phân bi?t rõ ràng v?i gi?ng ngu?i th?t. Tuy 
nhiên d? t? nhiên cao không ph?i lúc nào cung là m?c dích c?a h? th?ng và h? 
th?ng này cung có các uu di?m riêng c?a nó.

 

H? th?ng này nói khá d? nghe, ngay c? ? t?c d? cao, không có ti?ng c? xát do 
ghép âm t?o ra. các h? th?ng này ho?t d?ng ? t?c d? cao, có th? hu?ng d?n ngu?i 
khi?m th? nhanh chóng dò d?m trên máy tính, b?ng cách d?c to nh?ng gì hi?n ra 
trên màn hình. Các h? th?ng này cung nh? g?n hon các h? thông ghép n?i âm, vì 
không ph?i ch?a co s? d? li?u m?u âm thanh l?n. Nó có th? dùng trong các h? 
th?ng nhúng khi b? nh? và t?c d? x? lý có h?n. H? th?ng này cung có kh? nang 
di?u khi?n m?i khía c?nh c?a tín hi?u âm thanh di ra, no cho ra m?t d?i r?ng 
các l?i van và ng? di?u,

và không ch? th? hi?n du?c câu nói thu?ng hay câu h?i, mà c? các tr?ng thái 
tình c?m thông qua âm di?u c?a gi?ng nói.

 

Các ví d? v? các h? th?ng cho ra ng? di?u chính xác (nhung không cho ra ngay 
l?p t?c sau khi nh?n d?u vào) là các công trình cu?i nh?ng nam 1970 c?a d? choi 
Speak & Spell c?a Texas Instruments, và các trò choi video c?a SEGA d?u nh?ng 
nam 1980 nhu: Astro Blaster, Zektor, Space Fury, và Star Trek. Hi?n v?n chua có 
h? th?ng cho ra intonation chính xác ngay sau khi nh?n van b?n d?u vào.

 

T?ng h?p mô ph?ng phát âm

 

T?ng h?p mô ph?ng phát âm là các k? thu?t t?ng h?p gi?ng nói d?a trên mô hình 
máy tính c?a

co quan phát âm

c?a ngu?i và quá trình phát âm x?y ra t?i dó. H? th?ng t?ng h?p mô ph?ng phát 
âm d?u tiên là ASY, thu?ng du?c dùng cho các thí nghi?m trong nghiên c?u,

du?c phát tri?n ?

phòng thí nghi?m Haskins

vào gi?a nh?ng nam 1970 b?i

Philip Rubin,

Tom Baer, và Paul Mermelstein. ASY d?a trên mô hình co quan phát âm dã du?c t?o 
ra b?i phòng thí nghi?m Bell vào nh?ng nam 1960 và 1970 b?i Paul Mermelstein,

Cecil Coker, và các d?ng nghi?p khác. T?ng h?p mô ph?ng phát âm dã t?ng ch? là 
h? th?ng dành cho nghiên c?u khoa h?c cho mãi d?n nh?ng nam g?n dây. Lý

do là r?t ít mô hình t?o ra âm thanh ch?t lu?ng d? cao ho?c có th? ch?y hi?u 
qu? trên các ?ng d?ng thuong m?i. M?t ngo?i l? là h? th?ng d?a trên

NeXT

; v?n du?c phát tri?n và thuong m?i hóa b?i

Trillium Sound Research Inc,

?

Calgary,

Alberta,

Canada.

Dây là m?t công ty tách ra t?

D?i h?c Calgary

noi các nghiên c?u ban d?u dã du?c th?c hi?n. Theo sau các v? chuy?n nhu?ng các 
t?ng ph?n c?a

NeXT

(b?t d?u t?

Steve Jobs

vào cu?i nh?ng nam 1980 và vi?c h?p nh?t v?i

Apple

nam

1997),

ph?n m?m c?a Trillium du?c phân phát v?i gi?y phéo t? do

GPL.

D? án

gnuspeech,

m?t d? án c?a

GNU,

ti?p t?c phát tri?n ph?n m?m này. Ph?n m?m g?c

NeXT

và các chuy?n d?i sang cho

Mac OS/X

và

GNUstep

trong

GNU/Linux

có th? tìm th?y t?i

trang GNU savannah

; chúng d?u kèm theo tài li?u hu?ng d?n tr?c tuy?n và các bài vi?t liên quan 
d?n lý thuy?t n?n t?ng c?a công trình. H? th?ng, v?n du?c thuong m?i hóa l?n

d?u vào nam

1994,

t?o ra m?t máy t?ng h?p gi?ng nói d?a trên mô ph?ng phát âm hoàn ch?nh, d?a 
trên mô hình ?ng d?n sóng tuong duong v?i co quan phát âm c?a ngu?i. Nó du?c

di?u khi?n b?i Mô hình Ph?n Riêng bi?t c?a Carré; b?n thân mô hình này l?i d?a 
trên công trình c?a

Gunnar Fant

và các ngu?i khác ?

Phòng thí nghi?m Công ngh? Gi?ng nói Stockholm

thu?c

Vi?n C?ng ngh? Hoàng gia Th?y Di?n

v? t?ng h?p gi?ng nói c?ng hu?ng t?n s?. Công trình này cho th?y các c?ng hu?ng 
t?n s? trong ?ng c?ng hu?ng có th? du?c di?u khi?n b?ng cách thay d?i tám

tham s? tuong d?ng v?i các cách phát âm t? nhiên c?a co quan phát âm c?a ngu?i. 
H? th?ng bao g?m m?t t? di?n phát âm cùng v?i các quy t?c phát âm tùy thu?c

ng? c?nh d? giúp ghép n?i âm di?u và t?o ra các tham s? phát âm; mô ph?ng theo 
nh?p di?u và ng? di?u thu du?c t? các k?t qu? nghiên c?u

ng? âm h?c.

 

T?ng h?p mô ph?ng phát âm

 

T?ng h?p mô ph?ng phát âm là các k? thu?t t?ng h?p gi?ng nói d?a trên mô hình 
máy  tính c?a co quan phát âm c?a ngu?i và quá trình phát âm x?y ra t?i dó. H? 
th?ng t?ng h?p mô ph?ng phát âm d?u tiên là ASY, thu?ng du?c dùng cho các thí 
nghi?m trong nghiên c?u,

du?c phát tri?n ?

phòng thí nghi?m Haskins vào gi?a nh?ng nam 1970 b?i Philip Rubin, Tom Baer, và 
Paul Mermelstein. ASY d?a trên mô hình co quan phát âm dã du?c t?o ra b?i phòng 
thí nghi?m Bell vào nh?ng nam 1960 và 1970 b?i Paul Mermelstein, Cecil Coker, 
và các d?ng nghi?p khác. T?ng h?p mô ph?ng phát âm dã t?ng ch? là h? th?ng dành 
cho nghiên c?u khoa h?c cho mãi d?n nh?ng nam g?n dây. Lý do là r?t ít mô hình 
t?o ra âm thanh ch?t lu?ng d? cao ho?c có th? ch?y hi?u qu? trên các ?ng d?ng 
thuong m?i. M?t ngo?i l? là h? th?ng d?a trên NeXT ; v?n du?c phát tri?n và 
thuong m?i hóa b?i Trillium Sound Research Inc, ? Calgary, Alberta, Canada.

Dây là m?t công ty tách ra t? D?i h?c Calgary noi các nghiên c?u ban d?u dã 
du?c th?c hi?n. Theo sau các v? chuy?n nhu?ng các t?ng ph?n c?a NeXT (b?t d?u 
t? Steve Jobs vào cu?i nh?ng nam 1980 và vi?c h?p nh?t v?i Apple nam 1997), 
ph?n m?m c?a Trillium du?c phân phát v?i gi?y phéo t? do GPL. D? án gnuspeech, 
m?t d? án c?a GNU, ti?p t?c phát tri?n ph?n m?m này. Ph?n m?m g?c NeXT và các 
chuy?n d?i sang cho Mac OS/X và GNUstep Trong GNU/Linux có th? tìm th?y t?i 
trang GNU savannah

; chúng d?u kèm theo tài li?u hu?ng d?n tr?c tuy?n và các bài vi?t liên quan 
d?n lý thuy?t n?n t?ng c?a công trình. H? th?ng, v?n du?c thuong m?i hóa l?n 
d?u vào nam 1994,

t?o ra m?t máy t?ng h?p gi?ng nói d?a trên mô ph?ng phát âm hoàn ch?nh, d?a 
trên mô hình ?ng d?n sóng tuong duong v?i co quan phát âm c?a ngu?i. Nó du?c

di?u khi?n b?i Mô hình Ph?n Riêng bi?t c?a Carré; b?n thân mô hình này l?i d?a 
trên công trình c?a Gunnar Fant và các ngu?i khác ? Phòng thí nghi?m Công ngh? 
Gi?ng nói Stockholm thu?c Vi?n C?ng ngh? Hoàng gia Th?y Di?n v? t?ng h?p gi?ng 
nói c?ng hu?ng t?n s?. Công trình này cho th?y các c?ng hu?ng t?n s? trong ?ng 
c?ng hu?ng có th? du?c di?u khi?n b?ng cách thay d?i tám tham s? tuong d?ng v?i 
các cách phát âm t? nhiên c?a co quan phát âm c?a ngu?i. H? th?ng bao g?m m?t 
t? di?n phát âm cùng v?i các quy t?c phát âm tùy thu?c ng? c?nh d? giúp ghép 
n?i âm di?u và t?o ra các tham s? phát âm; mô ph?ng theo nh?p di?u và ng? di?u 
thu du?c t? các k?t qu? nghiên c?u ng? âm h?c.



 T?ng h?p lai

Các h? th?ng t?ng h?p lai k?t h?p các y?u t? c?a t?ng h?p c?ng hu?ng t?n s? v?i 
t?ng h?p ghép n?i d? gi?m thi?u các ti?ng c? xát khi ghép n?i các do?n âm thanh.

M?t ví d? là RecSimCat, phát tri?n b?i Shakti Singh Parmar có th? t?o ra gi?ng 
d? nghe và t? nhiên.[


 T?ng h?p d?a trên HMM

T?ng h?p d?a trên HMM là m?t phuong pháp d?a vào
mô hình Markov ?n
(HMM, vi?t t?t cho thu?t ng? ti?ng Anh Hidden Markov model). Trong h? th?ng này,
ph? t?n s?
c?a gi?ng nói,
t?n s? co b?n,
và th?i lu?ng d?u du?c mô ph?ng cùng lúc b?i HMM.
D?ng sóng
c?a gi?ng nói du?c t?o t? mô hình Markov ?n d?a trên tiêu chí
kh? th?c c?c d?i.



Chu?n hóa van b?n

 

Quá trình chu?n hóa van b?n thu?ng không don gi?n. Lý do là các van b?n thu?ng 
ch?a nhi?u t? cùng ch?, s? và vi?t t?t dòi h?i hi?u d? di?n d?t l?i trong van 
b?n d?y d?.

 

Trong m?t s? ngôn ng?, các t? có th? du?c phát âm khác nhau tùy theo ng? c?nh. 
Da s? h? th?ng t?ng h?p gi?ng nói không t?o ra th? hi?n van ph?m cho van b?n, 
vì quá trình này hi?n chua có công ngh? dáng tin c?y. Thay vào dó, nhi?u cách 
l?n mò du?c dùng d? phân bi?t các cách phát âm, nhu tìm các t? k? c?n hay dùng 
th?ng kê v? t?n s? xu?t hi?n.

 

Vi?c ch?n cách phát âm s? cung là m?t v?n d?. Lý do là cung có nhi?u cách ph?t 
âm s? tùy theo van c?nh. Nhu 1325 có th? d?c "m?t nghìn ba tram hai muoi nham" 
n?u nó là m?t s? t? nhiên,

nhung cung có th? là "m?t ba hai nam" n?u nó là b?n s? m?t mã ngân kho?n. 
Thu?ng h? th?ng t?ng h?p gi?ng nói có th? doán van c?nh b?ng vi?c quan sát các 
t? k? c?n, các s? hay d?u câu bên c?nh, ho?c dùng tru?ng h?p m?c d?nh khi không 
th? phân d?nh.

 

Tuong t?, các cách vi?t t?t cung có th? mang nhi?u nghia, tùy thu?c quy u?c c?a 
ngu?i vi?t.

 

Van b?n sang âm v?

 

Các h? th?ng t?ng h?p gi?ng nói dùng hai cách co b?n d? xác d?nh cách phát âm 
cho m?t t?, m?t quá trình còn du?c g?i là chuy?n d?i van b?n-sang-âm v? hay t? 
v?-sang-âm v?, vì âm v? là thu?t ng? dùng b?i các nhà ngôn ng? h?c d? mô t? các 
âm khác nhau trong ngôn ng?.

 

Cách th? nh?t, và don gi?n nh?t, là d?a vào t? di?n, s? d?ng m?t t? di?n l?n 
ch?a t?t c? các t? c?a m?t ngôn ng? và ch?a cách phát âm dúng tuong ?ng cho 
t?ng t?, luu trong máy tính. Vi?c xác d?nh cách phát âm dúng cho m?t t? ch? don 
gi?n là tra trong t? di?n và thay do?n van b?n b?ng mã phát âm dã ghi trong t? 
di?n.

 

Cách th? hai là d?a trên quy t?c, s? d?ng các quy t?c phát âm d? tìm ra cách 
phát âm tuong ?ng cho m?i t? phù h?p v?i quy t?c.

 

M?i cách d?u có uu di?m và nhu?c di?m. cách d?a trên t? di?n nhanh và chính 
xác, nhung s? không ho?t d?ng n?u t? c?n phát âm không có trong t? di?n và lu?ng

t? v?ng c?n luu là l?n. Cách dùng quy t?c ho?t d?ng v?i m?i van b?n (mi?n là 
phù h?p v?i quy t?c) nhung d? ph?c t?p c?a các quy t?c có th? tang cao n?u ngôn 
ng? có nhi?u tru?ng h?p b?t quy t?c trong phát âm. H?u h?t các h? th?ng t?ng 
h?p gi?ng nói d?u dùng k?t h?p c? hai cách.

 

M?t s? ngôn ng?, nhu

ti?ng Tây Ban Nha hay ti?ng Vi?t, có h? th?ng vi?t d?a trên cách phát âm m?t 
cách r?t có quy t?c, và vi?c tiên doán cách phát âm t? cách vi?t thu?ng có t? 
l? thành công cao. Các h? th?ng t?ng h?p gi?ng nói cho các ngôn ng? này thu?ng 
dùng ch? y?u cách d?a trên quy t?c, ch? tra t? di?n m?t vài t? d?c bi?t nhu tên 
vay mu?n t? nu?c ngoài.

 

M?t s? ngôn ng? khác, nhu ti?ng Anh, có h? th?ng phát âm r?t b?t quy t?c, 
thu?ng c?n h? th?ng t?ng h?p gi?ng nói d?a ch? y?u trên t? di?n và dùng các quy 
t?c cho nh?ng t? không có trong t? di?n.

 

Ngôn ng? dánh d?u cho t?ng h?p gi?ng nói

 

Có nhi?u ngôn ng? dánh d?u dã du?c hình thành cho vi?c t?o gi?ng nói t? van 
b?n, phù h?p v?i chu?n XML.

M?t ví d? cho ngôn ng? ki?u này là SSML du?c W3C d? xu?t. Các ngôn ng? dánh d?u 
cu hon có SABLE Và JSML.

Các ngôn ng? này d?u du?c d? xu?t là chu?n chung, nhung chua có ngôn ng? nào 
du?c dùng d? r?ng rãi d? thi?t l?p thành chu?n chung.

 

M?t t?p con c?a CSS 2 ch?a ACSS cung ph?c v? m?c dích t?ng h?p gi?ng nói.

 

Ngôn ng? dánh d?u t?ng h?p gi?ng nói khác v?i ngôn ng? dánh d?u dàm tho?i (nhu

VoiceXML).

Các ngôn ng? dánh d?u dàm tho?i, ngoài ch?a các thông tin chuy?n van b?n sang 
gi?ng nói, còn có các th? cho phép nh?n d?ng gi?ng nói, qu?n lý dàm tho?i và 
thông tin v? quay s? di?n tho?i b?ng âm thanh.

 

Apple

 

H? th?ng t?ng h?p gi?ng nói d?u tiên du?c tích h?p vào trong m?t h? di?u hành 
là Macintalk c?a Máy tính Apple nam 1984. Apple là m?t trong nh?ng nhà s?n xu?t 
d?u tiên dua h? th?ng t?ng h?p gi?ng nói vào các h? di?u hành thuong m?i. Trong 
nh?ng nam 1990, các gi?ng nói c?a Apple du?c t?ng h?p t? các m?u t? nhiên. Tuy 
nhiên g?n dây, Apple dã thêm các m?u gi?ng nói t?ng h?p, là Vicki và Bruce - 
d?t tên theo giáo su và nghiên c?u sinh t?i khoa ngôn ng? h?c UCLA,

nh?ng ngu?i dã cung c?p các mô hình gi?ng nói này. Các ph?n m?m d?u tiên ch? có 
ý d?nh gây s? tò mò cho khách hàng và không du?c Apple h? tr? tr?c ti?p;

tuy nhiên h? th?ng t?ng h?p gi?ng nói c?a máy tính Macintosh

dã ti?n hóa thành m?t chuong trình du?c h? tr? d?y d? cho ngu?i khi?m th?.

 

AmigaOS

 

H? di?u hành th? hai trên th? tru?ng tích h?p h? th?ng t?ng h?p gi?ng nói là 
AmigaOS nam

1985.

H? th?ng này du?c c?p phép cho Commodore International t? m?t bên th? ba là m?t 
hãng ph?n m?m ( Don't Ask Software, nay là Softvoice, Inc.) và nó có m?t h? 
th?ng mô ph?ng gi?ng ngu?i hoàn ch?nh, có c? gi?ng nam và gi?ng n? v?i các âm 
s?c khác nhau, dùng các tính nang nâng cao c?a các chip di?n t? trong ph?n c?ng 
Amiga. Nó du?c chia làm hai ph?n: ph?n d?c bình lu?n và m?t thu vi?n d?ch 
thu?t. Ph?n m?m Speak Handler c?a Amiga có ph?n d?ch thu?t van b?n sang ti?ng 
nói, dùng h? th?ng t?ng h?p âm v? ARPAbet. AmigaOS coi h? th?ng t?ng h?p gi?ng 
nói nhu m?t thi?t b? ph?n c?ng ?o, nên ngu?i dùng có th? chuy?n tín hi?u ra t? 
ph?n m?m khác d?n nó gi?ng nhu d?n máy in hay màn hình. M?t s? ph?n m?m trong 
Amiga, nhu trình so?n th?o van b?n, dùng nhi?u h? th?ng này.



Windows

 

Các h? di?u hành Windows hi?n d?i dùng các h? th?ng t?ng h?p gi?ng nói d?a trên 
SAPI4 và SAPI5, kèm theo máy nh?n d?ng gi?ng nói. SAPI 4.0 có m?t trên các h? 
di?u hành nhu Windows 9x.

 

Nhi?u ph?n m?m, nhu mIRC, dùng nhi?u ch?c nang trong SAPI 4.0 hay SAPI 5.0. 
Windows XP có ph?n m?m Narrator. H?u h?t các ph?n m?m tuong thích v?i Windows 
nhu Notepad, Office hay Adobe Acrobat có th? dùng các tính nang t?ng h?p gi?ng 
nói; tùy theo l?a ch?n trên trình don sau khi dã cài d?t. Chúng cung c?p h? tr? 
cho ngu?i khi?m th?.

 

M?t ví d? v? vi?c SAPI 5 cho phép m?t ph?n m?m k?t h?p công ngh? c?a Microsoft 
thành m?t màn hình n?n có tính tuong tác cao là Talking desktop. Ph?n m?m này 
k?t h?p ch?c nang nh?n d?ng gi?ng nói v?i các phát âm c?a SAPI 5.

 

Microsoft Speech Server là m?t gói hoàn ch?nh d? t?ng h?p và nh?n d?ng gi?ng 
nói, và có th? ?ng d?ng cho các h? th?ng liên l?c di?n tho?i có máy tính dùng 
Windows.



  GNU/Linux Có r?t nhi?u h? th?ng t?ng h?p gi?ng nói cho GNU/Linux và d?u có mã 
ngu?n m?. Ví d? bao g?m
Festival, c?a D?i h?c Edinburgh,
hay gnuspeech, c?a T? ch?c Ph?n m?m T? do.



TI-99/4 và TI-99/4A

TI-99/4 (1979) và TI-99/4A (1981) có th? d?c van b?n ? ch? d? d?c t?ng ch? và 
d?c c? do?n.

Trong máy TI Extended BASIC, l?nh CALL SAY có th? du?c dùng. Ví d?, CALL SAY("I 
AM A TEXAS INSTRUMENTS T I 99 4 A HOME COMPUTER") s? khi?n nó nói v? b?n
thân v?i gi?ng Texas. Trong h? th?ng này, ? ch? d? d?c c? t?, các t? l? s? du?c 
phát âm b?ng cách d?c t?ng ch? cái. ? ch? d? d?c t?ng ch? cái, ch?t lu?ng
gi?m h?n, dù h? th?ng s? d?c b?t c? van b?n nào g?i d?n nó.

TI-99/4 (1979) và TI-99/4A (1981) ch?a các b? vi x? lý 16-bit.



 Bên th? ba

Các h? th?ng phát tri?n b?i bên th? ba có th? du?c tích h?p vào trong các
h? di?u hành
(tr? SAPI) là
Lernout & Hauspie
(LH)
TTS 3000,
1st Read It Aloud!,
Total Speech,
PCVoz,
TextAloud,
Read Genius,
Speech RealSpeak,
IBM ViaVoice
và
Dolphin Orpheus
[1].







Name: Nguyen Hoang Bao Vu
Home: 210C Hiep Binh Chanh tenement. Thu Duc district Ho Chi Minh City Viet Nam

Home Phone: 7262214
Cell-phone: 0989350014
Yahoo ID: nguyenhoangbaovu
MSN ID: nguyenhoangbaovu
Skype ID: nguyenhoangbaovu
Blog: 360.yahoo.com/nguyenhoangbaovu

Other related posts: