[SMCC] Re: bo tong hop giong noi
- From: "Tran Ba Thien" <tranbathien@xxxxxxxxx>
- To: <smcc@xxxxxxxxxxxxx>
- Date: Thu, 21 Dec 2006 07:18:16 +0700
Cam on bao Vu, bai nay hay lam
----- Original Message -----
From: Nguyen Hoang Bao Vu
To: di nhan ; di thuy ; gia khanh ; huynh dang son ; le hien duc ; smcc
Sent: Thursday, December 21, 2006 1:37 AM
Subject: [SMCC] bo tong hop giong noi
Bài viết này sư tầm và gọt dũa khá công phu.
Nội dung thì hết chê.
Dài cũng phải nể.
Xin bạn sắp sếp thời gian rỗi rãi khoảng trên 1 giờ để
có thể đọc và ngẫm về bài phân tích khoa học về chủ đề
gắn liền với người dùng vi tính khiếm thị mình.
Trên máy tính, tổng hợp giọng nói là việc tạo ra giọng nói
của người từ đầu vào là văn bản hay các mã hóa việc phát
âm. Hệ thống thực hiện việc này còn gọi là máy tổng hợp
giọng nói, có thể là hệ thống phần mềm hoặc phần cứng.
Hệ thống này còn được gọi là văn bản-sang-tiếng nói
(text-to-speech, TTS); tuy rằng không phải hệ thống tổng hợp
giọng nói nào cũng có đầu vào là văn bản (nhiều hệ thống
thu nhận mã hóa cách phát âm, ví dụ mã IPA, như đầu vào). Các
hệ thống này có nhiều ứng dụng. Ví dụ như hệ thống này có
thể giúp người khiếm thị nghe được máy đọc ra văn bản;
đặc biệt là các văn bản có thể xử lý trên máy tính. Hệ
thống như vậy có thể lắp đặt trong phần mềm xử lý văn
bản hay trình duyệt mạng.
Tổng quan
Một máy tổng hợp giọng nói bao gồm hai phần: ngoại diện và
hậu trường. Phần ngoại diện nhận đầu vào ở dạng văn bản
rồi cho đầu ra là thể hiện biểu tượng ngôn ngữ của văn
bản (tức là một cách mã hóa cách phát âm văn bản). Phần hậu
trường nhận lấy thể hiện biểu tượng ngôn ngữ như đầu
vào và cho ra giọng nói tổng hợp ở dạng sóng âm thanh.
Phần ngoại diện có hai nhiệm vụ chính. Trước tiên, nó nhận
văn bản và chuyển đổi các ký tự như các chữ số hay cách
viết tắt thành dạng viết đầy đủ. Quá trình này gọi là
chuẩn hóa văn bản, hay tiền xử lý. Sau đó nó cho ra mã phát âm
ứng với từng từ, rồi phân chia và đánh dấu văn bản thành
từng đoạn văn, nhóm từ, mệnh đề, hay câu văn.
Quá trình chuyển văn bản sang mã phát âm được gọi là văn
bản-sang-âm vị. Kết hợp mã phát âm và thông tin đoạn văn
tạo nên đầu ra cuối cùng thể hiện biểu tượng ngôn ngữ.
Phần hậu trường, nhận lấy thể hiện biểu tượng ngôn ngữ
rồi chuyển nó thành âm thanh. Phần này thường được gọi là
máy tổng hợp. Có nhiều kỹ thuật tổng hợp, được mô tả
bên dưới.
Lịch sử
Từ lâu trước khi kỹ thuật xử lý tín hiệu bằng thiết bị
điện tử hiện đại ra đời, các nhà nghiên cứu giọng nói đã
cố gắng xây dựng các máy móc bắt chước giọng nói của
người. Các ví dụ đầu tiên của các máy này được chế tạo
bởi Gerbert ở Aurillac
(
1003), Albertus Magnus
(
1198 – 1280), và Roger Bacon ( 1214 – 1294).
Năm 1779, nhà khoa học người Đan Mạch Christian Kratzenstein, lúc
đó làm việc tại Viện Hàn lâm Khoa học Nga, xây dựng một mô
hình có thể bắt chước giọng nói người với năm nguyên âm
([a], [e], [I], [o] và [u]). Máy này sau đó được cải tiến thành
'Máy Phát âm Cơ khí-Âm học' của Wolfgang von Kempelen ở Wien, Áo,
được mô tả trong bài báo năm 1791 mang tựa đề Mechanismus der
menschlichen Sprache nebst der Beschreibung seiner sprechenden Maschine
("phương pháp tạo giọng nói và mô tả máy thực hiện việc
này," J. B. Degen, Wien). Máy này tạo ra mô hình của lưỡi và môi,
cho phép tạo ra phụ âm thêm vào cho nguyên âm. Năm 1837 Charles
Wheatstone tạo ra 'máy nói' dựa trên thiết kế của von Kempelen,
và đến năm 1857
M. Faber chế tạo máy 'Euphonia'. Máy của Wheatstone lại được
cải tiến Năm 1923 bởi Paget.
Những năm 1930, Phòng thí nghiệm Bell tạo ra máy VOCODER,
một máy phân tích và tổng hợp giọng nói điều khiển bằng
bàn phím, được mô tả là phát âm rõ ràng. Homer Dudley cải
tiến cỗ máy này thành VODER, và trưng bày nó tại Triển lãm
Thế giới New York 1939.
Các máy tổng hợp giọng nói bằng kỹ thuật điện tử, trong
giai đoạn này, có giọng nói không tự nhiên và khó nghe. Tuy
nhiên, chất lượng tổng hợp giọng nói ngày càng được cải
tiến, cho đến ngày nay giọng phát âm của nhiều hệ thống có
chất lượng tương đương giọng nói của người thật.
Các hệ thống tổng hợp giọng nói đầu tiên được tạo ra
vào những năm 1950 và hệ thống hoàn chỉnh đầu tiên ra đời
vào năm 1968.
Năm 1961, nhà vật lý học John Larry Kelly, Jr
dùng máy tính IBM 704 để tổng hợp giọng nói, đây là sự
kiện đáng nhớ trong lịch sử của phòng thí nghiệm Bell. Máy ghi
âm và tổng hợp giọng nói của Kelly tạo ra bài hát Daisy Bell,
với âm nhạc phụ họa bởi Max Mathews. Vào lúc trình diễn, Arthur
C. Clarke đang thăm bạn và đồng nghiệp John Pierce ở khu thí
nghiệm Bell ở Murray Hill. Clarke đã bị ấn tượng mạnh bởi
trình diễn của máy phát âm và đã dùng hình ảnh này trong tiểu
thuyết và kịch bản phim của ông 2001: A Space Odyssey, [1] trong đó
máy tính HAL 9000 hát cùng bài hát khi nó sắp bị nhà du hành vũ
trụ Dave Bowman đặt vào trạng thái ngủ.
[2]
Công nghệ tổng hợp giọng nói đã tiến hóa nhanh kể từ đó.
Hiện nay có hàng trăm hệ thống tổng hợp giọng nói, thương
mại cũng như tự do (
Tuy đã đạt được thành tựu trong tổng hợp giọng nói bằng
kỹ thuật điện tử, các nghiên cứu vẫn đang được tiến hành
để tạo ra bộ tổng hợp giọng nói cơ học, mô phỏng thanh
quản của người, dùng trong robot dạng người. Các bộ tổng
hợp giọng nói điện tử bị giới hạn bởi chất lượng của
loa, bộ phận cuối cùng tạo ra âm thanh, dù tín hiệu điện tử
có hoàn hảo. Có hy vọng rằng bộ thanh quản cơ khí có thể
tạo ra giọng nói chuẩn hơn loa thông thường.
Công nghệ tổng hợp giọng nói
Hai tính chất quan trọng của chất lượng hệ thống tổng hợp
giọng nói là mức độ tự nhiên và mức độ dễ nghe. Mức độ
tự nhiên của giọng nói tổng hợp chỉ đến sự giống nhau
giữa giọng tổng hợp và giọng nói tự nhiên của người thật.
Mức độ dễ nghe chỉ đến việc câu phát âm có thể hiểu
được dễ dàng không. Một máy
tổng hợp giọng nói lý tưởng cần vừa tự nhiên vừa dễ
nghe, và mục tiêu xây dựng máy tổng hợp giọng nói là làm gia
tăng đến mức tối đa hai tính chất này.
Một số hệ thống thiên về mức độ dễ nghe hơn, hoặc mức
độ tự nhiên hơn; tùy thuộc vào mục đích mà công nghệ
được lựa chọn. Có hai công nghệ chính được dùng
là tổng hợp ghép nối và tổng hợp cộng hưởng tần số
; ngoài ra cũng có một số công nghệ khác.
Tổng hợp ghép nối
Tổng hợp ghép nối dựa trên việc nối vào nhau các đoạn
của một giọng nói đã được ghi âm. Thông thường, tổng hợp
ghép nối tạo ra giọng nói tương đối tự nhiên.
Tuy nhiên, giọng nói tự nhiên được ghi âm có sự thay đổi
từ lần phát âm này sang lần phát âm khác, và công nghệ tự
động hóa việc ghép nối các đoạn của sóng âm thỉnh thoảng
tạo ra những tiếng cọ xát không tự nhiên ở phần ghép nối.
Có ba kiểu tổng hợp ghép nối.
Tổng hợp chọn đơn vị
Tổng hợp chọn đơn vị dùng một cơ sở dữ liệu lớn các
giọng nói ghi âm (thông thường dài hơn 1 giờ đồng hồ ghi âm).
Trong lúc ghi âm, mỗi câu phát biểu được tách ra thành các đơn
vị khác như: các âm tỏ lời đơn lẻ, âm tiết, hình vị, từ,
nhóm từ, và câu văn.
Thông thường, việc tách ra như vậy cần một máy nhận dạng
tiếng nói được đặt ở chế độ khớp với văn bản viết
tương ứng với đoạn ghi âm, và dùng đến hiển thị sóng âm
và phổ âm thanh.
Một bảng tra các đơn vị được lập ra dựa trên các phần
đã tách và các thông số âm học như tần số cơ bản, thời
lượng, vị trí của âm tiết, và âm tỏ lời gần đó. Khi
chạy, các câu phát biểu được tạo ra bằng cách xác định
chuỗi đơn vị phù hợp nhất từ cơ sở dữ liệu. Quá trình
này được gọi là chọn đơn vị, và thường cần dùng đến
cây quyết định để thực hiện.
Kỹ thuật chọn đơn vị tạo ra độ tự nhiên cao do không áp
dụng các kỹ thuật xử lý tín hiệu số lên các đoạn giọng
nói đã ghi âm, tuy rằng một số hệ thống có thể áp dụng xử
lý tín hiệu tại các đoạn nối giữa các đơn vị để làm
liền mạch kết quả sau khi
ghép nối. Thực tế, các hệ thống chọn đơn vị có thể tạo
ra giọng nói không thể phân biệt được với người thật. Tuy
nhiên, để đạt độ tự nhiên cao, thường cần một cơ sở dữ
liệu lớn chứa các đơn vị để lựa chọn; có thể lên tới
vài gigabyte, tương đương với hàng chục giờ ghi âm.
Tổng hợp âm kép
Tổng hợp âm kép dùng một cơ sở dữ liệu giọng nói nhỏ
chứa tất cả các âm kép (chuyển tiếp âm thanh) xuất hiện trong
ngôn ngữ đang xét. Số lượng âm kép phụ thuộc vào đặc tính
ghép âm học của ngôn ngữ: tiếng Tây Ban Nha có 800 âm kép,
tiếng Đức có 2500. Trong tổng hợp âm kép, chỉ có một ví dụ
của âm kép được chứa trong cơ sở dữ liệu. Khi chạy, lời
văn được chồng lên các đơn vị này bằng kỹ thuật xử lý
tín hiệu số như mã tiên đoán tuyến tính, PSOLA hay MBROLA.
Chất lượng của âm thanh tổng hợp theo cách này thường không
cao bằng phương pháp chọn đơn vị nhưng tự nhiên hơn tổng
hợp cộng hưởng tần số. Tổng hợp âm kép tạo ra các tiếng
cọ xát ở phần ghép nối và đôi khi giọng nói kiểu robot do
các kỹ thuật xử lý tín hiệu số gây ra. Lợi thế của phương
pháp này là kích
thước cơ sở dữ liệu nhỏ. Các ứng dụng thương mại của
phương pháp này đang ít dần, tuy nhiên có nhiều hệ thống như
này được phân phát tự do, và phục vụ cho nghiên cứu.
Tổng hợp chuyên ngành
Tổng hợp chuyên biệt ghép nối các từ và đoạn văn đã
được ghi âm để tạo ra lời phát biểu. Nó được dùng trong
các ứng dụng có các văn bản chuyên biệt cho một chuyên ngành,
sự dụng lượng từ vựng hạn chế, như các thông báo chuyến
bay hay dự báo thời tiết.
Công nghệ này rất đơn giản, và đã được thương mại hóa
từ lâu, đã đi vào các đồ vật như đồng hồ biết nói hay
máy tính bỏ túi biết nói. Mức độ tự nhiên của
các hệ thống này có thể rất cao vì số lượng các câu nói
không nhiều và khớp với lời văn và âm điệu của giọng nói
ghi âm. Tuy nhiên các hệ thống này bị hạn chế bởi cơ sở dữ
liệu chuyên ngành, không phục vụ mọi mục đích mà chỉ hoạt
động với các câu nói mà chúng đã được lập trình sẵn.
Tổng hợp cộng hưởng tần số
Tổng hợp cộng hưởng tần số không sử dụng bất cứ mẫu
giọng thật nào khi chạy. Thay vào đó, tín hiệu âm thanh cho ra
dựa trên một mô hình âm thanh. Các thông số như tần số cơ
bản, sự phát âm, và mức độ tiếng ồn được thay đổi theo
thời gian để tạo ra dạng sóng cho giọng nói nhân tạo. Phương
pháp này đôi khi còn được gọi là tổng hợp dựa trên quy
tắc, dù cho nhiều hệ thống ghép nối mẫu âm thanh thật cũng
có dùng các thành phần dựa trên quy tắc.
Nhiều hệ thống dựa trên tổng hợp cộng hưởng tần số
tạo ra giọng nói nhân tạo, như giọng rôbốt, không tự nhiên,
và phân biệt rõ ràng với giọng người thật. Tuy nhiên độ tự
nhiên cao không phải lúc nào cũng là mục đích của hệ thống
và hệ thống này cũng có các ưu điểm riêng của nó.
Hệ thống này nói khá dễ nghe, ngay cả ở tốc độ cao, không
có tiếng cọ xát do ghép âm tạo ra. các hệ thống này hoạt
động ở tốc độ cao, có thể hướng dẫn người khiếm thị
nhanh chóng dò dẫm trên máy tính, bằng cách đọc to những gì
hiện ra trên màn hình. Các hệ thống này cũng nhỏ gọn hơn các
hệ thông ghép nối âm, vì không phải chứa cơ sở dữ liệu
mẫu âm thanh lớn. Nó có thể dùng trong các hệ thống nhúng khi
bộ nhớ và tốc độ xử lý có hạn. Hệ thống này cũng có
khả năng điều khiển mọi khía cạnh của tín hiệu âm thanh đi
ra, no cho ra một dải rộng các lời văn và ngữ điệu,
và không chỉ thể hiện được câu nói thường hay câu hỏi,
mà cả các trạng thái tình cảm thông qua âm điệu của giọng
nói.
Các ví dụ về các hệ thống cho ra ngữ điệu chính xác (nhưng
không cho ra ngay lập tức sau khi nhận đầu vào) là các công
trình cuối những năm 1970 của đồ chơi Speak & Spell của Texas
Instruments, và các trò chơi video của SEGA đầu những năm 1980
như: Astro Blaster, Zektor, Space Fury, và Star Trek. Hiện vẫn chưa có
hệ thống cho ra intonation chính xác ngay sau khi nhận văn bản
đầu vào.
Tổng hợp mô phỏng phát âm
Tổng hợp mô phỏng phát âm là các kỹ thuật tổng hợp giọng
nói dựa trên mô hình máy tính của
cơ quan phát âm
của người và quá trình phát âm xảy ra tại đó. Hệ thống
tổng hợp mô phỏng phát âm đầu tiên là ASY, thường được
dùng cho các thí nghiệm trong nghiên cứu,
được phát triển ở
phòng thí nghiệm Haskins
vào giữa những năm 1970 bởi
Philip Rubin,
Tom Baer, và Paul Mermelstein. ASY dựa trên mô hình cơ quan phát âm
đã được tạo ra bởi phòng thí nghiệm Bell vào những năm 1960
và 1970 bởi Paul Mermelstein,
Cecil Coker, và các đồng nghiệp khác. Tổng hợp mô phỏng phát
âm đã từng chỉ là hệ thống dành cho nghiên cứu khoa học cho
mãi đến những năm gần đây. Lý
do là rất ít mô hình tạo ra âm thanh chất lượng đủ cao
hoặc có thể chạy hiệu quả trên các ứng dụng thương mại.
Một ngoại lệ là hệ thống dựa trên
NeXT
; vốn được phát triển và thương mại hóa bởi
Trillium Sound Research Inc,
ở
Calgary,
Alberta,
Canada.
Đây là một công ty tách ra từ
Đại học Calgary
nơi các nghiên cứu ban đầu đã được thực hiện. Theo sau các
vụ chuyển nhượng các từng phần của
NeXT
(bắt đầu từ
Steve Jobs
vào cuối những năm 1980 và việc hợp nhất với
Apple
năm
1997),
phần mềm của Trillium được phân phát với giấy phéo tự do
GPL.
Dự án
gnuspeech,
một dự án của
GNU,
tiếp tục phát triển phần mềm này. Phần mềm gốc
NeXT
và các chuyển đổi sang cho
Mac OS/X
và
GNUstep
trong
GNU/Linux
có thể tìm thấy tại
trang GNU savannah
; chúng đều kèm theo tài liệu hướng dẫn trực tuyến và các
bài viết liên quan đến lý thuyết nền tảng của công trình.
Hệ thống, vốn được thương mại hóa lần
đầu vào năm
1994,
tạo ra một máy tổng hợp giọng nói dựa trên mô phỏng phát
âm hoàn chỉnh, dựa trên mô hình ống dẫn sóng tương đương
với cơ quan phát âm của người. Nó được
điều khiển bởi Mô hình Phần Riêng biệt của Carré; bản
thân mô hình này lại dựa trên công trình của
Gunnar Fant
và các người khác ở
Phòng thí nghiệm Công nghệ Giọng nói Stockholm
thuộc
Viện Cộng nghệ Hoàng gia Thụy Điển
về tổng hợp giọng nói cộng hưởng tần số. Công trình này
cho thấy các cộng hưởng tần số trong ống cộng hưởng có
thể được điều khiển bằng cách thay đổi tám
tham số tương đồng với các cách phát âm tự nhiên của cơ
quan phát âm của người. Hệ thống bao gồm một từ điển phát
âm cùng với các quy tắc phát âm tùy thuộc
ngữ cảnh để giúp ghép nối âm điệu và tạo ra các tham số
phát âm; mô phỏng theo nhịp điệu và ngữ điệu thu được từ
các kết quả nghiên cứu
ngữ âm học.
Tổng hợp mô phỏng phát âm
Tổng hợp mô phỏng phát âm là các kỹ thuật tổng hợp giọng
nói dựa trên mô hình máy tính của cơ quan phát âm của người
và quá trình phát âm xảy ra tại đó. Hệ thống tổng hợp mô
phỏng phát âm đầu tiên là ASY, thường được dùng cho các thí
nghiệm trong nghiên cứu,
được phát triển ở
phòng thí nghiệm Haskins vào giữa những năm 1970 bởi Philip
Rubin, Tom Baer, và Paul Mermelstein. ASY dựa trên mô hình cơ quan phát
âm đã được tạo ra bởi phòng thí nghiệm Bell vào những năm
1960 và 1970 bởi Paul Mermelstein, Cecil Coker, và các đồng nghiệp
khác. Tổng hợp mô phỏng phát âm đã từng chỉ là hệ thống
dành cho nghiên cứu khoa học cho mãi đến những năm gần đây.
Lý do là rất ít mô hình tạo ra âm thanh chất lượng đủ cao
hoặc có thể chạy hiệu quả trên các ứng dụng thương mại.
Một ngoại lệ là hệ thống dựa trên NeXT ; vốn được phát
triển và thương mại hóa bởi Trillium Sound Research Inc, ở Calgary,
Alberta, Canada.
Đây là một công ty tách ra từ Đại học Calgary nơi các nghiên
cứu ban đầu đã được thực hiện. Theo sau các vụ chuyển
nhượng các từng phần của NeXT (bắt đầu từ Steve Jobs vào
cuối những năm 1980 và việc hợp nhất với Apple năm 1997), phần
mềm của Trillium được phân phát với giấy phéo tự do GPL. Dự
án gnuspeech, một dự án của GNU, tiếp tục phát triển phần
mềm này. Phần mềm gốc NeXT và các chuyển đổi sang cho Mac OS/X
và GNUstep Trong GNU/Linux có thể tìm thấy tại trang GNU savannah
; chúng đều kèm theo tài liệu hướng dẫn trực tuyến và các
bài viết liên quan đến lý thuyết nền tảng của công trình.
Hệ thống, vốn được thương mại hóa lần đầu vào năm 1994,
tạo ra một máy tổng hợp giọng nói dựa trên mô phỏng phát
âm hoàn chỉnh, dựa trên mô hình ống dẫn sóng tương đương
với cơ quan phát âm của người. Nó được
điều khiển bởi Mô hình Phần Riêng biệt của Carré; bản
thân mô hình này lại dựa trên công trình của Gunnar Fant và các
người khác ở Phòng thí nghiệm Công nghệ Giọng nói Stockholm
thuộc Viện Cộng nghệ Hoàng gia Thụy Điển về tổng hợp
giọng nói cộng hưởng tần số. Công trình này cho thấy các
cộng hưởng tần số trong ống cộng hưởng có thể được
điều khiển bằng cách thay đổi tám tham số tương đồng với
các cách phát âm tự nhiên của cơ quan phát âm của người. Hệ
thống bao gồm một từ điển phát âm cùng với các quy tắc phát
âm tùy thuộc ngữ cảnh để giúp ghép nối âm điệu và tạo ra
các tham số phát âm; mô phỏng theo nhịp điệu và ngữ điệu thu
được từ các kết quả nghiên cứu ngữ âm học.
Tổng hợp lai
Các hệ thống tổng hợp lai kết hợp các yếu tố của tổng
hợp cộng hưởng tần số với tổng hợp ghép nối để giảm
thiểu các tiếng cọ xát khi ghép nối các đoạn âm thanh.
Một ví dụ là RecSimCat, phát triển bởi Shakti Singh Parmar có
thể tạo ra giọng dễ nghe và tự nhiên.[
Tổng hợp dựa trên HMM
Tổng hợp dựa trên HMM là một phương pháp dựa vào
mô hình Markov ẩn
(HMM, viết tắt cho thuật ngữ tiếng Anh Hidden Markov model). Trong
hệ thống này,
phổ tần số
của giọng nói,
tần số cơ bản,
và thời lượng đều được mô phỏng cùng lúc bởi HMM.
Dạng sóng
của giọng nói được tạo từ mô hình Markov ẩn dựa trên
tiêu chí
khả thực cực đại.
Chuẩn hóa văn bản
Quá trình chuẩn hóa văn bản thường không đơn giản. Lý do là
các văn bản thường chứa nhiều từ cùng chữ, số và viết
tắt đòi hỏi hiểu để diễn đạt lại trong văn bản đầy
đủ.
Trong một số ngôn ngữ, các từ có thể được phát âm khác
nhau tùy theo ngữ cảnh. Đa số hệ thống tổng hợp giọng nói
không tạo ra thể hiện văn phạm cho văn bản, vì quá trình này
hiện chưa có công nghệ đáng tin cậy. Thay vào đó, nhiều cách
lần mò được dùng để phân biệt các cách phát âm, như tìm
các từ kế cận hay dùng thống kê về tần số xuất hiện.
Việc chọn cách phát âm số cũng là một vấn đề. Lý do là
cũng có nhiều cách phất âm số tùy theo văn cảnh. Như 1325 có
thể đọc "một nghìn ba trăm hai mươi nhăm" nếu nó là một số
tự nhiên,
nhưng cũng có thể là "một ba hai năm" nếu nó là bốn số mật
mã ngân khoản. Thường hệ thống tổng hợp giọng nói có thể
đoán văn cảnh bằng việc quan sát các từ kế cận, các số hay
dấu câu bên cạnh, hoặc dùng trường hợp mặc định khi không
thể phân định.
Tương tự, các cách viết tắt cũng có thể mang nhiều nghĩa,
tùy thuộc quy ước của người viết.
Văn bản sang âm vị
Các hệ thống tổng hợp giọng nói dùng hai cách cơ bản để
xác định cách phát âm cho một từ, một quá trình còn được
gọi là chuyển đổi văn bản-sang-âm vị hay tự vị-sang-âm vị,
vì âm vị là thuật ngữ dùng bởi các nhà ngôn ngữ học để
mô tả các âm khác nhau trong ngôn ngữ.
Cách thứ nhất, và đơn giản nhất, là dựa vào từ điển,
sử dụng một từ điển lớn chứa tất cả các từ của một
ngôn ngữ và chứa cách phát âm đúng tương ứng cho từng từ,
lưu trong máy tính. Việc xác định cách phát âm đúng cho một
từ chỉ đơn giản là tra trong từ điển và thay đoạn văn bản
bằng mã phát âm đã ghi trong từ điển.
Cách thứ hai là dựa trên quy tắc, sử dụng các quy tắc phát
âm để tìm ra cách phát âm tương ứng cho mỗi từ phù hợp với
quy tắc.
Mỗi cách đều có ưu điểm và nhược điểm. cách dựa trên
từ điển nhanh và chính xác, nhưng sẽ không hoạt động nếu
từ cần phát âm không có trong từ điển và lượng
từ vựng cần lưu là lớn. Cách dùng quy tắc hoạt động với
mọi văn bản (miễn là phù hợp với quy tắc) nhưng độ phức
tạp của các quy tắc có thể tăng cao nếu ngôn ngữ có nhiều
trường hợp bất quy tắc trong phát âm. Hầu hết các hệ thống
tổng hợp giọng nói đều dùng kết hợp cả hai cách.
Một số ngôn ngữ, như
tiếng Tây Ban Nha hay tiếng Việt, có hệ thống viết dựa trên
cách phát âm một cách rất có quy tắc, và việc tiên đoán cách
phát âm từ cách viết thường có tỷ lệ thành công cao. Các hệ
thống tổng hợp giọng nói cho các ngôn ngữ này thường dùng
chủ yếu cách dựa trên quy tắc, chỉ tra từ điển một vài từ
đặc biệt như tên vay mượn từ nước ngoài.
Một số ngôn ngữ khác, như tiếng Anh, có hệ thống phát âm
rất bất quy tắc, thường cần hệ thống tổng hợp giọng nói
dựa chủ yếu trên từ điển và dùng các quy tắc cho những từ
không có trong từ điển.
Ngôn ngữ đánh dấu cho tổng hợp giọng nói
Có nhiều ngôn ngữ đánh dấu đã được hình thành cho việc
tạo giọng nói từ văn bản, phù hợp với chuẩn XML.
Một ví dụ cho ngôn ngữ kiểu này là SSML được W3C đề
xuất. Các ngôn ngữ đánh dấu cũ hơn có SABLE Và JSML.
Các ngôn ngữ này đều được đề xuất là chuẩn chung, nhưng
chưa có ngôn ngữ nào được dùng đủ rộng rãi để thiết lập
thành chuẩn chung.
Một tập con của CSS 2 chứa ACSS cũng phục vụ mục đích tổng
hợp giọng nói.
Ngôn ngữ đánh dấu tổng hợp giọng nói khác với ngôn ngữ
đánh dấu đàm thoại (như
VoiceXML).
Các ngôn ngữ đánh dấu đàm thoại, ngoài chứa các thông tin
chuyển văn bản sang giọng nói, còn có các thẻ cho phép nhận
dạng giọng nói, quản lý đàm thoại và thông tin về quay số
điện thoại bằng âm thanh.
Apple
Hệ thống tổng hợp giọng nói đầu tiên được tích hợp vào
trong một hệ điều hành là Macintalk của Máy tính Apple năm 1984.
Apple là một trong những nhà sản xuất đầu tiên đưa hệ thống
tổng hợp giọng nói vào các hệ điều hành thương mại. Trong
những năm 1990, các giọng nói của Apple được tổng hợp từ
các mẫu tự nhiên. Tuy nhiên gần đây, Apple đã thêm các mẫu
giọng nói tổng hợp, là Vicki và Bruce - đặt tên theo giáo sư và
nghiên cứu sinh tại khoa ngôn ngữ học UCLA,
những người đã cung cấp các mô hình giọng nói này. Các
phần mềm đầu tiên chỉ có ý định gây sự tò mò cho khách
hàng và không được Apple hỗ trợ trực tiếp;
tuy nhiên hệ thống tổng hợp giọng nói của máy tính Macintosh
đã tiến hóa thành một chương trình được hỗ trợ đầy
đủ cho người khiếm thị.
AmigaOS
Hệ điều hành thứ hai trên thị trường tích hợp hệ thống
tổng hợp giọng nói là AmigaOS năm
1985.
Hệ thống này được cấp phép cho Commodore International từ một
bên thứ ba là một hãng phần mềm ( Don't Ask Software, nay là
Softvoice, Inc.) và nó có một hệ thống mô phỏng giọng người
hoàn chỉnh, có cả giọng nam và giọng nữ với các âm sắc khác
nhau, dùng các tính năng nâng cao của các chip điện tử trong
phần cứng Amiga. Nó được chia làm hai phần: phần đọc bình
luận và một thư viện dịch thuật. Phần mềm Speak Handler của
Amiga có phần dịch thuật văn bản sang tiếng nói, dùng hệ
thống tổng hợp âm vị ARPAbet. AmigaOS coi hệ thống tổng hợp
giọng nói như một thiết bị phần cứng ảo, nên người dùng
có thể chuyển tín hiệu ra từ phần mềm khác đến nó giống
như đến máy in hay màn hình. Một số phần mềm trong Amiga, như
trình soạn thảo văn bản, dùng nhiều hệ thống này.
Windows
Các hệ điều hành Windows hiện đại dùng các hệ thống tổng
hợp giọng nói dựa trên SAPI4 và SAPI5, kèm theo máy nhận dạng
giọng nói. SAPI 4.0 có mặt trên các hệ điều hành như Windows 9x.
Nhiều phần mềm, như mIRC, dùng nhiều chức năng trong SAPI 4.0
hay SAPI 5.0. Windows XP có phần mềm Narrator. Hầu hết các phần
mềm tương thích với Windows như Notepad, Office hay Adobe Acrobat có
thể dùng các tính năng tổng hợp giọng nói; tùy theo lựa chọn
trên trình đơn sau khi đã cài đặt. Chúng cung cấp hỗ trợ cho
người khiếm thị.
Một ví dụ về việc SAPI 5 cho phép một phần mềm kết hợp
công nghệ của Microsoft thành một màn hình nền có tính tương
tác cao là Talking desktop. Phần mềm này kết hợp chức năng nhận
dạng giọng nói với các phát âm của SAPI 5.
Microsoft Speech Server là một gói hoàn chỉnh để tổng hợp và
nhận dạng giọng nói, và có thể ứng dụng cho các hệ thống
liên lạc điện thoại có máy tính dùng Windows.
GNU/Linux Có rất nhiều hệ thống tổng hợp giọng nói cho
GNU/Linux và đều có mã nguồn mở. Ví dụ bao gồm
Festival, của Đại học Edinburgh,
hay gnuspeech, của Tổ chức Phần mềm Tự do.
TI-99/4 và TI-99/4A
TI-99/4 (1979) và TI-99/4A (1981) có thể đọc văn bản ở chế
độ đọc từng chữ và đọc cả đoạn.
Trong máy TI Extended BASIC, lệnh CALL SAY có thể được dùng. Ví
dụ, CALL SAY("I AM A TEXAS INSTRUMENTS T I 99 4 A HOME COMPUTER") sẽ
khiến nó nói về bản
thân với giọng Texas. Trong hệ thống này, ở chế độ đọc
cả từ, các từ lạ sẽ được phát âm bằng cách đọc từng
chữ cái. Ở chế độ đọc từng chữ cái, chất lượng
giảm hẳn, dù hệ thống sẽ đọc bất cứ văn bản nào gửi
đến nó.
TI-99/4 (1979) và TI-99/4A (1981) chứa các bộ vi xử lý 16-bit.
Bên thứ ba
Các hệ thống phát triển bởi bên thứ ba có thể được tích
hợp vào trong các
hệ điều hành
(trừ SAPI) là
Lernout & Hauspie
(LH)
TTS 3000,
1st Read It Aloud!,
Total Speech,
PCVoz,
TextAloud,
Read Genius,
Speech RealSpeak,
IBM ViaVoice
và
Dolphin Orpheus
[1].
Name: Nguyen Hoang Bao Vu
Home: 210C Hiep Binh Chanh tenement. Thu Duc district Ho Chi Minh City Viet
Nam
Home Phone: 7262214
Cell-phone: 0989350014
Yahoo ID: nguyenhoangbaovu
MSN ID: nguyenhoangbaovu
Skype ID: nguyenhoangbaovu
Blog: 360.yahoo.com/nguyenhoangbaovu
- References:
- [SMCC] bo tong hop giong noi
- From: Nguyen Hoang Bao Vu
Other related posts:
- » [SMCC] bo tong hop giong noi
- » [SMCC] Re: bo tong hop giong noi
- [SMCC] bo tong hop giong noi
- From: Nguyen Hoang Bao Vu