giong noi nhan tao cho tieng Viet
- From: "Nguyen Hoang Bao Vu" <baovu@xxxxxxxxxxxx>
- To: "smcc" <smcc@xxxxxxxxxxxxx>, "thang nguyen" <nguyenthangsm@xxxxxxxxx>, "di nhan" <nhanhop@xxxxxxxxx>, "ninh" <nguyenninh090@xxxxxxxxx>
- Date: Mon, 30 Oct 2006 07:55:07 +0700
Gi?ng nói nhân t?o cho ti?ng Vi?t
Reply with quote
L?i gi?i thi?u:
Bài này du?c vi?t l?n d?u cho D?c San 2006 c?a h?i c?u h?c sinh Nguy?n Dình
Chi?u - Lê Ng?c Hân, nh?m gi?i thi?u nhu li?u VietVoice ph? bi?n t? nam 2004
trên trang web noitiengviet.ca. Chúng tôi d?c bi?t chú ý v? khía c?nh th?c
d?ng c?a nhu li?u này trong d?i s?ng hàng ngày d? bài vi?t d? ph? c?p d?n m?i
ngu?i. Chúng tôi s? v? v?i nhi?u chuy?n ?ng d?ng tuong lai c?a nhu li?u này,
có v? gi?ng nhu truy?n khoa h?c gi? tu?ng (vì các s?n ph?m d? c?p d?n chua
t?ng du?c ra m?t), nhung trên th?c t? thì trong th?i gian s?p t?i các ?ng d?ng
này s? là m?t hi?n th?c ch? không còn là gi? tu?ng n?a. N?u quý v? quan
tâm d?n khía c?nh k? thu?t thì có th? xem thêm các bài gi?i thi?u và báo cáo k?
thu?t di kèm các phiên b?n dã ra m?t tru?c dây, ho?c tham kh?o các trang
Web có d?a ch? ghi trong ph?n cu?i c?a bài này.
VietVoice-4.0: Nhu li?u ti?ng nói t?ng h?p và d?ch v? "cá nhân hóa" ti?ng nói
Nhu li?u VietVoice cho phép máy di?n toán cá nhân d?c du?c nh?ng h? so vi?t
b?ng ti?ng Vi?t dùng mã Unicode. B?t d?u t? phiên b?n 4.0, chúng tôi cung c?p
thêm d?ch v? "cá nhân hóa" gi?ng nói nhân t?o qua nhu li?u VietVoice. Nói g?n
là n?u quý v? mu?n nghe chính gi?ng nói c?a mình (thay vì gi?ng không m?y
ng?t ngào c?a tác gi?) thì quý v? có th? xem k? các tài li?u trên trang nhà c?a
chúng tôi d? bi?t cách thu âm l?y "gi?ng m?u" c?a quý v?, cung nhu b?n
h?p d?ng ph?i ký k?t và phí d?ch v? ph?i tr?. Sau khi nh?n du?c qua buu-di?n
h?p d?ng v?i ch? ký c?a quý v?, chúng tôi s? ti?n hành các vi?c c?n thi?t
d? t?o ra ti?ng nói "nhân t?o" nhung hoàn toàn mang "d?u ?n" c?a quý v?. Trong
ph?n du?i dây chúng tôi s? nói v? các ?nh hu?ng và ?ng d?ng c?a ti?ng nói
nhân t?o trong d?i s?ng hàng ngày trên nhi?u phuong di?n khác nhau.
T? kh?ng b? và ch?ng c? pháp lý .
G?n dây, chúng ta thu?ng th?y báo chí d?t v?n d? v? gi?ng nói de d?a t?n công
nu?c M? ph? bi?n trên dài truy?n hình ?-R?p Al-Jazeera không bi?t có ph?i
th?c là c?a Bin Laden không? Hay ông trùm dã ch?t m?t tiêu r?i và bang ghi âm
ch? là bang gi?. Sau dó vài ngày các chuyên gia m?i xác d?nh du?c là th?t.
Th? nhung ch?ng bao lâu n?a v?n d? này s? không còn có ý nghia gì, m?t khi các
nhà khoa h?c ?-R?p cung hoàn thành m?t nhu li?u tuong t? nhu VietVoice.
Nói rõ hon là sau khi dã cá nhân hóa du?c gi?ng nói nhân t?o thì v?n d? s?
d?ng gi?ng nói ?y d? d?c m?t van b?n du?c so?n ra vào b?t c? lúc nào trong
tuong lai cung d?u là gi?ng th?t 100% c?, nghia là n?u Bin Laden dã ch?t r?i mà
ngu?i ta dùng gi?ng nói nhân t?o c?a chính ông ta d? d?c m?t bài tr? dua
l?i v?i bài c?a t?ng th?ng M? m?i d?c ngày hôm qua ch?ng h?n, là di?u hoàn toàn
kh? di, s? không chuyên gia nào có th? k?t lu?n gi?ng ?y là gi?ng gi? (không
ph?i c?a Bin Laden).
Ngoài chuy?n kh?ng b? ra thì còn vô s? chuy?n pháp lu?t có liên quan d?n gi?ng
nói, ch?ng h?n t?i tòa án có khi lu?t su dã yêu c?u b?i th?m doàn ph?i nghe
l?i các cu?n bang ghi âm nh?ng chi ti?t có th? d?n d?n vi?c k?t t?i các b? cáo,
dù là bang ghi lén hay ghi công khai. Nh?ng ch?ng c? d?i lo?i nhu v?y,
trong tuong lai s? không còn có giá tr? gì n?a, vì các chuyên viên s? có th?
hoàn toàn ng?y t?o các cu?n bang này, sau khi dã l?y du?c "gi?ng m?u" c?a
duong s?. V?n d? "làm sao l?y du?c gi?ng m?u c?a m?t ngu?i" thì còn khá ph?c
t?p, tuy nhiên n?u kiên nh?n và có di?u ki?n thì v?n có th? th?c hi?n du?c.
Chúng tôi xin gi?i thích so qua chuy?n này. Trong ti?ng Vi?t, chúng ta dã phân
tích co c?u ng? âm và bi?t m?t cách xác th?c các t? ng? dã du?c c?u t?o
th? nào (xin xem lo?t bài c?a chúng tôi vi?t v? v?n d? này có ph? bi?n trên
trang Web vietsciences.free.fr). Nói g?n, toàn b? ti?ng Vi?t c?a chúng ta
ch? có kho?ng 12000 t?-ng?-don (nhu "com, ti?n, x?u, d?p, ngu?i, v?t", v.v.)
du?c ghép t? nh?ng v?n co b?n c?a ti?ng Vi?t. Ti?ng Vi?t ch? có kh?ang 150
v?n co b?n (nhu ai, uông, an, ang, oen, uyên, v.v.) n?u mu?n ghi âm luôn c?
nh?ng v?n có 6 d?u (nhu ai, ái, ài, ?i, ãi, ?i) và nh?ng v?n có 2 d?u (nhu
ít, ?t) thì t?ng c?ng ch? có kho?ng 1800 v?n c?n ph?i thu âm d? l?y gi?ng m?u.
Sau dó t?t c? t? ng? còn l?i d?u du?c t?ng h?p theo phuong pháp ghép v?n
(concatenative synthesis), ch?ng h?n nhu ghép "ta" và "am" s? du?c "tam", ghép
"ma" và "ai" s? du?c "mai", v.v. Khi dùng gi?ng nói (nhân t?o) này d? d?c
m?t van b?n thì nghe nhu chính duong s? dã d?c van b?n dó. Nhu v?y, n?u ta
khéo b? trí s?p x?p (qua nhi?u l?n d?i th?ai) cho duong s? phát ngôn ra các
v?n co b?n d? thu lén thì chúng ta v?n có du?c gi?ng m?u c?a duong s? không d?n
n?i khó khan l?m. Còn n?u du?c chính duong s? cung c?p gi?ng m?u thì ch?ng
còn v?n d? gì n?a. Có th? phiên b?n hi?n nay c?a VietVoice v?n còn m?t s?
khuy?t di?m trong gi?ng t?ng h?p, nhu nh?p d?c, hay các kho?ng ngh? gi?a các
t? ng? chua du?c t? nhiên, v.v. Trong tuong lai g?n, các phiên b?n s?p t?i s?
kh?c ph?c các khuy?t di?m này không khó khan gì. D?i v?i các ngôn ng? da
âm trên th? gi?i thì vi?c « ghép v?n » có v? r?c r?i hon, tuy v?y chúng tôi tin
r?ng r?i dây ngu?i ta cung s? có gi?i pháp thích dáng.
cho d?n chuy?n gi?i trí .
Nh?ng chuy?n v? pháp lu?t d? làm chúng ta ngán ng?m, nhung chuy?n gi?i trí thì
có v? h?p d?n hon. V?i cu?c s?ng v?i vàng nhu hi?n nay, ai cung c?n ti?t
ki?m thì gi?. N?u ph?i m?t m?t vài gi? d? di chuy?n hàng ngày thì th?i gian
ng?i trên xe (xe tu nhân, hay b?t c? phuong ti?n chuyên ch? c?ng c?ng nào)
cung r?t u?ng cho chúng ta. Chúng ta thu?ng l?i d?ng th?i gian dó d? d?c sách
báo tài li?u, hay nghe nh?c gi?i trí. Ch? có nghe nh?c là tho?i mái nh?t
vì m?t không ph?i làm vi?c, s? nh?i l?c c?a xe c? ch?ng ?nh hu?ng gì. V?y thì
thay vì ph?i cang m?t ra (hay ph?i deo kính vào) d? d?c sách báo thì ?ng
d?ng c?a gi?ng nói t?ng h?p s? cho phép ta ch?ng c?n làm gì khác hon là ch?
lim-dim m?t (n?u không ph?i lái xe) và nghe d?c các n?i dung. V?i nh?ng ti?n
nghi m?i nh?t nhu di?n tho?i di d?ng thì chúng ta còn có th? truy c?p vào các
trang báo, hay tìm ki?m các bài v? c?n thi?t ngay trên m?ng, và khi dã tìm
du?c tài li?u thì ch? . nh?n nút là ta nghe d?c gi?ng h?t nhu hi?n nay ta nghe
nh?c mp3 v?y.
và tr? mãi không già .
Không m?y ai khi còn tr? mà l?i mu?n bi?t hình dung di?n m?o mình s? th? nào
lúc v? già. Th? nhung ch? m?t th?i gian ng?n trôi qua, nhìn l?i các hình ?nh
k? ni?m, chúng ta d?u nh?n ra bi?t bao thay d?i trên nét m?t c?a mình. Chính
vì v?y mà ngu?i ta dã xem vi?c ch?p ?nh nhu là làm mình tr? thành "b?t t?".
Ngày nay v?i vidéo chúng ta v?a th?y hình ?nh l?i v?a nghe du?c gi?ng nói c?a
chính mình. Và ch?c r?ng chúng ta dã t?ng ng?c nhiên khi nghe l?i gi?ng
nói c?a chính ta. Có th? ta dã xao xuy?n khi th?y gi?ng c?a ta lúc xua sao
nghe trong tr?o th?. Th? tu?ng tu?ng xa hon m?t chút, khi l?n tu?i hon n?a
thì gi?ng nói c?a ta s? còn thay d?i d?n th? nào. Có nên gi? l?i mãi mãi cái
gi?ng nói nhu bây gi? d? ta t? d?c bài v? cho ta nghe, hay cho ngu?i thân
c?a ta nghe? Di?u dó cung thú v? l?m ch?!
hay nh?ng chuy?n tình muôn thu?
Khi vi?c cá nhân hóa gi?ng nói dã tr? thành ph? thông và ít t?n kém thì vi?c
g?i thu tình nhu trong quá kh? c?a muôn ngàn dôi l?a s? du?c thay th? b?ng
vi?c g?i "l?i tình". L?i tình có th? g?i di nhu m?t tin nh?n v?i n?i dung ng?n
g?n qua h?p thu di?n t?, hay thi?t tha lãng m?n hon b?ng cách d?c cho ngu?i
yêu nghe nh?ng do?n van, nh?ng bài tho b?ng chính gi?ng c?a mình. Anh s? nghe
gi?ng nói thân yêu c?a em m?i khi dùng gi?ng nói nhân t?o, và tuong t? em
s? nghe gi?ng c?a anh, chúng ta s? có c?m giác r?t g?n gui nhau, lúc nào cung
có bên nhau trong cu?c d?i. Tuy nhiên, n?u ch?ng may có m?t th?ng "b?n tr?i
dánh", làm gi?ng cá nhân c?a h?n r?i dem t?ng cho cô b?n gái c?a b?n d? nghe
v?i nhu li?u VietVoice. Th? là s? có ngày b?n th?y computer c?a b? mình sao
c? ra r? gi?ng c?a anh chàng kia su?t ngày, h?n d?c cho b? mình nghe d? th?
chuy?n, th? có dáng n?i diên không ch?. Thôi, thôi, ta cung ph?i lo làm gi?ng
nói c?a ta d? thay th? cho gi?ng c?a h?n ngay l?p t?c m?i xong.
Ngh? thu?t ti?p th? (marketing) : "Có tôi dây"
Trong khi các ti?p xúc "m?t d?i m?t" gi?a nhân viên ti?p th? và khách hàng luôn
luôn t? ra hi?u qu? (nhung t?n kém) trong vi?c bán buôn s?n ph?m và d?ch
v?, t?i sao không nghi d?n vi?c g?i t?ng gi?ng nói t?ng h?p c?a m?t nhân v?t
r?t n?i ti?ng c?a công ty (dã t?ng du?c khách hàng quen bi?t) d?n m?i ngu?i
khách, sau dó s? g?i thông tin - d?nh k? - v? d?ch v? hay s?n ph?m c?a công ty.
Khách hàng s? th?y tho?i mái khi nghe gi?ng quen bi?t và có tín nhi?m
gi?i thi?u các m?u hàng hay d?ch v? m?i. Ngay trong n?i b? nh?ng công ty l?n,
các lãnh d?o công ty cung có th? làm tuong t? m?i khi mu?n nh?n g?i d?n
t?t c? nhân viên các thông di?p quan tr?ng. M?t lo?i nhu-li?u ?ng d?ng
VietVoice s? cho phép máy c?a khách hàng hay c?a nhân viên, m?i khi du?c kh?i
d?ng,
t? d?ng tìm d?c các tin nh?n (messages) nh?n du?c t? công ty c?a b?n dang hi?n
ra trên màn hình.
Ch?ng c? là chuy?n marketing, các em bé cung có th? du?c nghe k? chuy?n tru?c
khi di ng? b?ng gi?ng nói thân thuong c?a m? chúng. Và, n?u b?n thích nghe
d?c truy?n (b?t c? truy?n gì) thì cung có th? du?c nghe d?c b?ng gi?ng c?a
chính b?n hay c?a m?t ngu?i thân.
T? phát ngôn viên ?o .
T?i các nu?c tân ti?n, khi ph?i h?i tham thông tin c?n thi?t cho vi?c du l?ch
(ngày gi? di d?n c?a các chuy?n bay ch?ng h?n) hay tin t?c khí tu?ng, chúng
ta thu?ng ch? c?n b?m nút (ch?n m?t s? tùy theo nhu c?u c?a ta) và sau dó ta
nghe ti?ng tr? l?i. Dó là ti?ng nói nhân t?o ch? không có ai có m?t t?i ch?
d? tr? l?i ta. Ti?ng nói ?y ch? vi?c d?c do?n van tuong ?ng v?i câu h?i c?a
ta, dã du?c s?an s?n và c?p nh?t thu?ng xuyên. Nh?ng ?ng d?ng tuong t? nhu
v?y có th? tìm th?y ? b?t c? các t? di?m công c?ng nào, dem l?i ti?n nghi cho
ngu?i dân. Hãy tu?ng tu?ng vì b?n có cái tai ngh?nh ngãng, h?i m?t l?n nghe
không rõ mà ph?i h?i l?i hoài thì th?t là ngu?ng. S? không thành v?n d? n?a vì
b?n ch?ng h? "làm phi?n" ai c?, ch? là phát ngôn viên ?o thôi mà.
Ngoài ra, s? ph?c v? c?a ti?ng nói nhân t?o d?i v?i ngu?i khi?m th? là di?u
hi?n nhiên; chúng tôi dã nh?n du?c r?t nhi?u thu c?m on và khích l? c?a các
v? này k? t? khi ph? bi?n nhu li?u VietVoice. Trong tuong lai s? có các nhu
li?u ?ng d?ng ti?ng nói nhân t?o du?c thi?t k? d? dáp ?ng các nhu c?u riêng
c?a ngu?i khi?m th?.
d?n ca si ?o (virtual singer) hay ti?ng hát t?ng h?p
Chúng tôi dã t?ng d? c?p d?n ti?ng hát t?ng h?p trong bài gi?i thi?u phiên b?n
d?u tiên, lúc dó có tên là NHU LI?U D?C TI?NG VI?T - Vietnamese Virtual Voice
(version 1.1 - 2004) nhung có l? ít ngu?i luu ý. Khi dó chúng tôi có ý th?c
hi?n nhu li?u "Ti?ng Hát T?ng H?p" d? cùng góp m?t v?i các s?n ph?m tuong
t? c?a các dân t?c khác. V?i nhu-li?u ?y, m?t gi?ng m?u cá nhân, sau khi thu
âm và phân tích, có th? dùng d? hát lên (thay vì ch? d?c) các l?i ca c?a
m?t b?n nh?c m?t cách chính xác v? cao d? (intonation) và tru?ng d? (duration).
Dây là m?t vi?c làm hoàn toàn n?m trong t?m tay c?a chúng tôi, ch? ch?
có ngân sách là th?c hi?n du?c ngay. V?i gi?ng hát nhân t?o b?ng ti?ng Vi?t,
chúng ta s? có th? hát b?t c? b?n nh?c (l?i Vi?t) nào mà không c?n ph?i làm
thêm m?t c? g?ng nào khác nhu v?i các ngôn ng? da-âm. D? hát m?i bài nh?c, nhu
li?u này s? nh?n m?t c?p h? so d? ki?n: th? nh?t là h? so van b?n nhu v?i
VietVoice, và th? hai là m?t h? so ghi các thông s? âm nh?c tuong ?ng v?i t?ng
t? ng? c?a h? so th? nh?t nói trên. Gi?ng hát có th? s? không tuy?t v?i
(v?i ngh? thu?t di?n t?, luy?n láy trên m?i ch? nhu các ca si chuyên nghi?p)
nhung ch?c ch?n là hát dúng nh?c pháp 100%. Các b?n có th? vào trang web
sau dây d? tìm hi?u thêm và xem các chuyên gia c?a các ngôn ng? khác dã th?c
hi?n gi?ng hát ?o và ca-si ?o nhu th? nào :
http://www.myriad-online.com/en/products/virtualsinger.htm
Sau h?t, chúng tôi cung hình dung hàng lo?t các chuong trình nghiên c?u trong
tuong lai nh?m xác d?nh co c?u c?a "âm s?c" hay bi?t tính c?a gi?ng nói t?ng
cá nhân (timbre). T?i sao tôi và b?n cùng nói m?t câu mà m?i ngu?i d?u d? dàng
nh?n ra du?c câu nào là do b?n nói, câu nào do tôi nói? K?t qu? c?a công
trình này s? còn dua d?n nh?ng ?ng d?ng l?n lao hon nhi?u trong m?i m?t c?a d?i
s?ng (t?m so sánh v?i s? khám phá các chu?i DNA trong ngành sinh v?t h?c).
Ngoài ra, s? liên h? k? thu?t c?a gi?ng nói nhân t?o v?i s? nh?n bi?t t? d?ng
các câu nói ti?ng Vi?t - automatic speech recognition (nghia là t? m?t h?
so âm thanh dã ghi âm ta có th? chuy?n qua thành van b?n) cung dòi h?i nhi?u
công trình nghiên c?u sâu r?ng hon n?a, nhung k?t qu? s? là di?u r?t dáng
mong d?i cho t?t c? chúng ta. B?n có th? tu?ng tu?ng khi dó máy tính s? v?a
"nghe" và v?a "nói" hay "tr? l?i" du?c b?ng ti?ng Vi?t, di?u mà hi?n nay ch?
m?i có ? bu?c d?u d?i v?i m?t vài ngôn ng? c?a các nu?c van minh (nhu ti?ng Anh
và ti?ng Pháp).
Moncton, mùa dông 2006
Lê Tang H?, Ph.D.
D?i H?c Moncton,
New Brunswick, Canada
Name: Nguyen Hoang Bao Vu
Office: Sao Mai Computer Center for the Blind
12B/C7 Hoang Hoa Tham street, Tan Binh district Ho Chi Minh City Viet Nam
tel: 84 8 849 5069.
Fax: 84 8 293 8300.
Email:
info@xxxxxxxxxxxxxxxx
Website:
www.saomaicenter.org
Home: 210C Hiep Binh Chanh tenement. Thu Duc district Ho Chi Minh City Viet Nam
Cell-phone: 0989350014
Yahoo ID: nguyenhoangbaovu
Skype ID: nguyenhoangbaovu
Blog:
360.yahoo.com/nguyenhoangbaovu
Other related posts:
- » giong noi nhan tao cho tieng Viet