[SMCC] Re: bo tong hop giong noi

Cam on bao Vu, bai nay hay lam
  ----- Original Message ----- 
  From: Nguyen Hoang Bao Vu 
  To: di nhan ; di thuy ; gia khanh ; huynh dang son ; le hien duc ; smcc 
  Sent: Thursday, December 21, 2006 1:37 AM
  Subject: [SMCC] bo tong hop giong noi


  Bài viết này sư tầm và gọt dũa khá công phu.

  Nội dung thì hết chê.

  Dài cũng phải nể.

  Xin bạn  sắp sếp thời gian rỗi rãi khoảng trên 1 giờ để 
có thể đọc và ngẫm về bài phân tích khoa học về chủ đề 
gắn liền với người dùng vi tính khiếm thị mình.



  Trên máy tính, tổng hợp giọng nói là việc tạo ra giọng nói 
của người từ đầu vào là văn bản hay các mã hóa việc phát 
âm. Hệ thống thực hiện việc này còn gọi là máy tổng hợp 
giọng nói, có thể là hệ thống phần mềm hoặc phần cứng. 
Hệ thống này còn được gọi là văn bản-sang-tiếng nói 
(text-to-speech, TTS); tuy rằng không phải hệ thống tổng hợp 
giọng nói nào cũng có đầu vào là văn bản (nhiều hệ thống 
thu nhận mã hóa cách phát âm, ví dụ mã IPA, như đầu vào). Các 
hệ thống này có nhiều ứng dụng. Ví dụ như hệ thống này có 
thể giúp người khiếm thị nghe được máy đọc ra văn bản; 
đặc biệt là các văn bản có thể xử lý trên máy tính. Hệ 
thống như vậy có thể lắp đặt trong phần mềm xử lý văn 
bản hay trình duyệt mạng.

   

  Tổng quan

   

  Một máy tổng hợp giọng nói bao gồm hai phần: ngoại diện và 
hậu trường. Phần ngoại diện nhận đầu vào ở dạng văn bản 
rồi cho đầu ra là thể hiện biểu tượng ngôn ngữ của văn 
bản (tức là một cách mã hóa cách phát âm văn bản). Phần hậu 
trường nhận lấy thể hiện biểu tượng ngôn ngữ như đầu 
vào và cho ra giọng nói tổng hợp ở dạng sóng âm thanh.

   

  Phần ngoại diện có hai nhiệm vụ chính. Trước tiên, nó nhận 
văn bản và chuyển đổi các ký tự như các chữ số hay cách 
viết tắt thành dạng viết đầy đủ. Quá trình này gọi là 
chuẩn hóa văn bản, hay tiền xử lý. Sau đó nó cho ra mã phát âm 
ứng với từng từ, rồi phân chia và đánh dấu văn bản thành 
từng đoạn văn, nhóm từ, mệnh đề, hay câu văn.

  Quá trình chuyển văn bản sang mã phát âm được gọi là văn 
bản-sang-âm vị. Kết hợp mã phát âm và thông tin đoạn văn 
tạo nên đầu ra cuối cùng thể hiện biểu tượng ngôn ngữ.

   

  Phần hậu trường, nhận lấy thể hiện biểu tượng ngôn ngữ 
rồi chuyển nó thành âm thanh. Phần này thường được gọi là 
máy tổng hợp. Có nhiều kỹ thuật tổng hợp, được mô tả 
bên dưới.

   

  Lịch sử

   

  Từ lâu trước khi kỹ thuật xử lý tín hiệu bằng thiết bị 
điện tử hiện đại ra đời, các nhà nghiên cứu giọng nói đã 
cố gắng xây dựng các máy móc bắt chước giọng nói của 
người. Các ví dụ đầu tiên của các máy này được chế tạo 
bởi Gerbert ở Aurillac

  (

  1003), Albertus Magnus

  (

  1198 – 1280), và Roger Bacon ( 1214 – 1294).

   

  Năm 1779, nhà khoa học người Đan Mạch Christian Kratzenstein, lúc 
đó làm việc tại Viện Hàn lâm Khoa học Nga, xây dựng một mô 
hình có thể bắt chước giọng nói người với năm nguyên âm 
([a], [e], [I], [o] và [u]). Máy này sau đó được cải tiến thành 
'Máy Phát âm Cơ khí-Âm học' của Wolfgang von Kempelen ở Wien, Áo, 
được mô tả trong bài báo năm 1791 mang tựa đề Mechanismus der 
menschlichen Sprache nebst der Beschreibung seiner sprechenden Maschine

  ("phương pháp tạo giọng nói và mô tả máy thực hiện việc 
này," J. B. Degen, Wien). Máy này tạo ra mô hình của lưỡi và môi, 
cho phép tạo ra phụ âm thêm vào cho nguyên âm. Năm 1837 Charles 
Wheatstone tạo ra 'máy nói' dựa trên thiết kế của von Kempelen, 
và đến năm 1857

  M. Faber chế tạo máy 'Euphonia'. Máy của Wheatstone lại được 
cải tiến  Năm 1923 bởi Paget.

   

  Những năm 1930, Phòng thí nghiệm Bell tạo ra máy VOCODER,

  một máy phân tích và tổng hợp giọng nói điều khiển bằng 
bàn phím, được mô tả là phát âm rõ ràng. Homer Dudley cải 
tiến cỗ máy này thành VODER, và trưng bày nó tại Triển lãm 
Thế giới New York 1939.

   

  Các máy tổng hợp giọng nói bằng kỹ thuật điện tử, trong 
giai đoạn này, có giọng nói không tự nhiên và khó nghe. Tuy 
nhiên, chất lượng tổng hợp giọng nói ngày càng được cải 
tiến, cho đến ngày nay giọng phát âm của nhiều hệ thống có 
chất lượng tương đương giọng nói của người thật.

   

  Các hệ thống tổng hợp giọng nói đầu tiên được tạo ra 
vào những năm 1950 và hệ thống hoàn chỉnh đầu tiên ra đời 
vào năm 1968.

   

  Năm 1961, nhà vật lý học John Larry Kelly, Jr

  dùng máy tính IBM 704 để tổng hợp giọng nói, đây là sự 
kiện đáng nhớ trong lịch sử của phòng thí nghiệm Bell. Máy ghi 
âm và tổng hợp giọng nói của Kelly tạo ra bài hát Daisy Bell, 
với âm nhạc phụ họa bởi Max Mathews. Vào lúc trình diễn, Arthur 
C. Clarke đang thăm bạn và đồng nghiệp John Pierce ở khu thí 
nghiệm Bell ở Murray Hill. Clarke đã bị ấn tượng mạnh bởi 
trình diễn của máy phát âm và đã dùng hình ảnh này trong tiểu 
thuyết và kịch bản phim của ông 2001: A Space Odyssey, [1] trong đó 
máy tính HAL 9000 hát cùng bài hát khi nó sắp bị nhà du hành vũ 
trụ Dave Bowman đặt vào trạng thái ngủ.

  [2]

   

  Công nghệ tổng hợp giọng nói đã tiến hóa nhanh kể từ đó. 
Hiện nay có hàng trăm hệ thống tổng hợp giọng nói, thương 
mại cũng như tự do (

   

  Tuy đã đạt được thành tựu trong tổng hợp giọng nói bằng 
kỹ thuật điện tử, các nghiên cứu vẫn đang được tiến hành 
để tạo ra bộ tổng hợp giọng nói cơ học, mô phỏng thanh 
quản của người, dùng trong robot dạng người. Các bộ tổng 
hợp giọng nói điện tử bị giới hạn bởi chất lượng của 
loa, bộ phận cuối cùng tạo ra âm thanh, dù tín hiệu điện tử 
có hoàn hảo. Có hy vọng rằng bộ thanh quản cơ khí có thể 
tạo ra giọng nói chuẩn hơn loa thông thường.

   

  Công nghệ tổng hợp giọng nói

   

  Hai tính chất quan trọng của chất lượng hệ thống tổng hợp 
giọng nói là mức độ tự nhiên và mức độ dễ nghe. Mức độ 
tự nhiên của giọng nói tổng hợp chỉ đến sự giống nhau 
giữa giọng tổng hợp và giọng nói tự nhiên của người thật. 
Mức độ dễ nghe chỉ đến việc câu phát âm có thể hiểu 
được dễ dàng không. Một máy

  tổng hợp giọng nói lý tưởng cần vừa tự nhiên vừa dễ 
nghe, và mục tiêu xây dựng máy tổng hợp giọng nói là làm gia 
tăng đến mức tối đa hai tính chất này.

  Một số hệ thống thiên về mức độ dễ nghe hơn, hoặc mức 
độ tự nhiên hơn; tùy thuộc vào mục đích mà công nghệ 
được lựa chọn. Có hai công nghệ chính được dùng

  là tổng hợp ghép nối và tổng hợp cộng hưởng tần số

  ; ngoài ra cũng có một số công nghệ khác.

   

  Tổng hợp ghép nối

   

  Tổng hợp ghép nối dựa trên việc nối vào nhau các đoạn 
của một giọng nói đã được ghi âm. Thông thường, tổng hợp 
ghép nối tạo ra giọng nói tương đối tự nhiên.

  Tuy nhiên, giọng nói tự nhiên được ghi âm có sự thay đổi 
từ lần phát âm này sang lần phát âm khác, và công nghệ tự 
động hóa việc ghép nối các đoạn của sóng âm thỉnh thoảng 
tạo ra những tiếng cọ xát không tự nhiên ở phần ghép nối. 
Có ba kiểu tổng hợp ghép nối.

   

  Tổng hợp chọn đơn vị

   

  Tổng hợp chọn đơn vị dùng một cơ sở dữ liệu lớn các 
giọng nói ghi âm (thông thường dài hơn 1 giờ đồng hồ ghi âm). 
Trong lúc ghi âm, mỗi câu phát biểu được tách ra thành các đơn 
vị khác như: các âm tỏ lời đơn lẻ, âm tiết, hình vị, từ, 
nhóm từ, và câu văn.

  Thông thường, việc tách ra như vậy cần một máy nhận dạng 
tiếng nói được đặt ở chế độ khớp với văn bản viết 
tương ứng với đoạn ghi âm, và dùng đến hiển thị sóng âm 
và phổ âm thanh.

  Một bảng tra các đơn vị được lập ra dựa trên các phần 
đã tách và các thông số âm học như tần số cơ bản, thời 
lượng, vị trí của âm tiết, và âm tỏ lời gần đó. Khi 
chạy, các câu phát biểu được tạo ra bằng cách xác định 
chuỗi đơn vị phù hợp nhất từ cơ sở dữ liệu. Quá trình 
này được gọi là chọn đơn vị, và thường cần dùng đến 
cây quyết định để thực hiện.

   

  Kỹ thuật chọn đơn vị tạo ra độ tự nhiên cao do không áp 
dụng các kỹ thuật xử lý tín hiệu số lên các đoạn giọng 
nói đã ghi âm, tuy rằng một số hệ thống có thể áp dụng xử 
lý tín hiệu tại các đoạn nối giữa các đơn vị để làm 
liền mạch kết quả sau khi

  ghép nối. Thực tế, các hệ thống chọn đơn vị có thể tạo 
ra giọng nói không thể phân biệt được với người thật. Tuy 
nhiên, để đạt độ tự nhiên cao, thường cần một cơ sở dữ 
liệu lớn chứa các đơn vị để lựa chọn; có thể lên tới 
vài gigabyte, tương đương với hàng chục giờ ghi âm.

   

  Tổng hợp âm kép

   

  Tổng hợp âm kép dùng một cơ sở dữ liệu giọng nói nhỏ 
chứa tất cả các âm kép (chuyển tiếp âm thanh) xuất hiện trong 
ngôn ngữ đang xét. Số lượng âm kép phụ thuộc vào đặc tính 
ghép âm học của ngôn ngữ: tiếng Tây Ban Nha có 800 âm kép, 
tiếng Đức có 2500. Trong tổng hợp âm kép, chỉ có một ví dụ 
của âm kép được chứa trong cơ sở dữ liệu. Khi chạy, lời 
văn được chồng lên các đơn vị này bằng kỹ thuật xử lý 
tín hiệu số như mã tiên đoán tuyến tính, PSOLA hay MBROLA.

   

  Chất lượng của âm thanh tổng hợp theo cách này thường không 
cao bằng phương pháp chọn đơn vị nhưng tự nhiên hơn tổng 
hợp cộng hưởng tần số. Tổng hợp âm kép tạo ra các tiếng 
cọ xát ở phần ghép nối và đôi khi giọng nói kiểu robot do 
các kỹ thuật xử lý tín hiệu số gây ra. Lợi thế của phương 
pháp này là kích

  thước cơ sở dữ liệu nhỏ. Các ứng dụng thương mại của 
phương pháp này đang ít dần, tuy nhiên có nhiều hệ thống như 
này được phân phát tự do, và phục vụ cho nghiên cứu.

   

  Tổng hợp chuyên ngành

   

  Tổng hợp chuyên biệt ghép nối các từ và đoạn văn đã 
được ghi âm để tạo ra lời phát biểu. Nó được dùng trong 
các ứng dụng có các văn bản chuyên biệt cho một chuyên ngành, 
sự dụng lượng từ vựng hạn chế, như các thông báo chuyến 
bay hay dự báo thời tiết.

   

  Công nghệ này rất đơn giản, và đã được thương mại hóa 
từ lâu, đã đi vào các đồ vật như đồng hồ biết nói hay 
máy tính bỏ túi biết nói. Mức độ tự nhiên của

  các hệ thống này có thể rất cao vì số lượng các câu nói 
không nhiều và khớp với lời văn và âm điệu của giọng nói 
ghi âm. Tuy nhiên các hệ thống này bị hạn chế bởi cơ sở dữ 
liệu chuyên ngành, không phục vụ mọi mục đích mà chỉ hoạt 
động với các câu nói mà chúng đã được lập trình sẵn.

   

  Tổng hợp cộng hưởng tần số

   

  Tổng hợp cộng hưởng tần số không sử dụng bất cứ mẫu 
giọng thật nào khi chạy. Thay vào đó, tín hiệu âm thanh cho ra 
dựa trên một mô hình âm thanh. Các thông số như tần số cơ 
bản, sự phát âm, và mức độ tiếng ồn được thay đổi theo 
thời gian để tạo ra dạng sóng cho giọng nói nhân tạo. Phương 
pháp này đôi khi còn được gọi là tổng hợp dựa trên quy 
tắc, dù cho nhiều hệ thống ghép nối mẫu âm thanh thật cũng 
có dùng các thành phần dựa trên quy tắc.

   

  Nhiều hệ thống dựa trên tổng hợp cộng hưởng tần số 
tạo ra giọng nói nhân tạo, như giọng rôbốt, không tự nhiên, 
và phân biệt rõ ràng với giọng người thật. Tuy nhiên độ tự 
nhiên cao không phải lúc nào cũng là mục đích của hệ thống 
và hệ thống này cũng có các ưu điểm riêng của nó.

   

  Hệ thống này nói khá dễ nghe, ngay cả ở tốc độ cao, không 
có tiếng cọ xát do ghép âm tạo ra. các hệ thống này hoạt 
động ở tốc độ cao, có thể hướng dẫn người khiếm thị 
nhanh chóng dò dẫm trên máy tính, bằng cách đọc to những gì 
hiện ra trên màn hình. Các hệ thống này cũng nhỏ gọn hơn các 
hệ thông ghép nối âm, vì không phải chứa cơ sở dữ liệu 
mẫu âm thanh lớn. Nó có thể dùng trong các hệ thống nhúng khi 
bộ nhớ và tốc độ xử lý có hạn. Hệ thống này cũng có 
khả năng điều khiển mọi khía cạnh của tín hiệu âm thanh đi 
ra, no cho ra một dải rộng các lời văn và ngữ điệu,

  và không chỉ thể hiện được câu nói thường hay câu hỏi, 
mà cả các trạng thái tình cảm thông qua âm điệu của giọng 
nói.

   

  Các ví dụ về các hệ thống cho ra ngữ điệu chính xác (nhưng 
không cho ra ngay lập tức sau khi nhận đầu vào) là các công 
trình cuối những năm 1970 của đồ chơi Speak & Spell của Texas 
Instruments, và các trò chơi video của SEGA đầu những năm 1980 
như: Astro Blaster, Zektor, Space Fury, và Star Trek. Hiện vẫn chưa có 
hệ thống cho ra intonation chính xác ngay sau khi nhận văn bản 
đầu vào.

   

  Tổng hợp mô phỏng phát âm

   

  Tổng hợp mô phỏng phát âm là các kỹ thuật tổng hợp giọng 
nói dựa trên mô hình máy tính của

  cơ quan phát âm

  của người và quá trình phát âm xảy ra tại đó. Hệ thống 
tổng hợp mô phỏng phát âm đầu tiên là ASY, thường được 
dùng cho các thí nghiệm trong nghiên cứu,

  được phát triển ở

  phòng thí nghiệm Haskins

  vào giữa những năm 1970 bởi

  Philip Rubin,

  Tom Baer, và Paul Mermelstein. ASY dựa trên mô hình cơ quan phát âm 
đã được tạo ra bởi phòng thí nghiệm Bell vào những năm 1960 
và 1970 bởi Paul Mermelstein,

  Cecil Coker, và các đồng nghiệp khác. Tổng hợp mô phỏng phát 
âm đã từng chỉ là hệ thống dành cho nghiên cứu khoa học cho 
mãi đến những năm gần đây. Lý

  do là rất ít mô hình tạo ra âm thanh chất lượng đủ cao 
hoặc có thể chạy hiệu quả trên các ứng dụng thương mại. 
Một ngoại lệ là hệ thống dựa trên

  NeXT

  ; vốn được phát triển và thương mại hóa bởi

  Trillium Sound Research Inc,

  ở

  Calgary,

  Alberta,

  Canada.

  Đây là một công ty tách ra từ

  Đại học Calgary

  nơi các nghiên cứu ban đầu đã được thực hiện. Theo sau các 
vụ chuyển nhượng các từng phần của

  NeXT

  (bắt đầu từ

  Steve Jobs

  vào cuối những năm 1980 và việc hợp nhất với

  Apple

  năm

  1997),

  phần mềm của Trillium được phân phát với giấy phéo tự do

  GPL.

  Dự án

  gnuspeech,

  một dự án của

  GNU,

  tiếp tục phát triển phần mềm này. Phần mềm gốc

  NeXT

  và các chuyển đổi sang cho

  Mac OS/X

  và

  GNUstep

  trong

  GNU/Linux

  có thể tìm thấy tại

  trang GNU savannah

  ; chúng đều kèm theo tài liệu hướng dẫn trực tuyến và các 
bài viết liên quan đến lý thuyết nền tảng của công trình. 
Hệ thống, vốn được thương mại hóa lần

  đầu vào năm

  1994,

  tạo ra một máy tổng hợp giọng nói dựa trên mô phỏng phát 
âm hoàn chỉnh, dựa trên mô hình ống dẫn sóng tương đương 
với cơ quan phát âm của người. Nó được

  điều khiển bởi Mô hình Phần Riêng biệt của Carré; bản 
thân mô hình này lại dựa trên công trình của

  Gunnar Fant

  và các người khác ở

  Phòng thí nghiệm Công nghệ Giọng nói Stockholm

  thuộc

  Viện Cộng nghệ Hoàng gia Thụy Điển

  về tổng hợp giọng nói cộng hưởng tần số. Công trình này 
cho thấy các cộng hưởng tần số trong ống cộng hưởng có 
thể được điều khiển bằng cách thay đổi tám

  tham số tương đồng với các cách phát âm tự nhiên của cơ 
quan phát âm của người. Hệ thống bao gồm một từ điển phát 
âm cùng với các quy tắc phát âm tùy thuộc

  ngữ cảnh để giúp ghép nối âm điệu và tạo ra các tham số 
phát âm; mô phỏng theo nhịp điệu và ngữ điệu thu được từ 
các kết quả nghiên cứu

  ngữ âm học.

   

  Tổng hợp mô phỏng phát âm

   

  Tổng hợp mô phỏng phát âm là các kỹ thuật tổng hợp giọng 
nói dựa trên mô hình máy  tính của cơ quan phát âm của người 
và quá trình phát âm xảy ra tại đó. Hệ thống tổng hợp mô 
phỏng phát âm đầu tiên là ASY, thường được dùng cho các thí 
nghiệm trong nghiên cứu,

  được phát triển ở

  phòng thí nghiệm Haskins vào giữa những năm 1970 bởi Philip 
Rubin, Tom Baer, và Paul Mermelstein. ASY dựa trên mô hình cơ quan phát 
âm đã được tạo ra bởi phòng thí nghiệm Bell vào những năm 
1960 và 1970 bởi Paul Mermelstein, Cecil Coker, và các đồng nghiệp 
khác. Tổng hợp mô phỏng phát âm đã từng chỉ là hệ thống 
dành cho nghiên cứu khoa học cho mãi đến những năm gần đây. 
Lý do là rất ít mô hình tạo ra âm thanh chất lượng đủ cao 
hoặc có thể chạy hiệu quả trên các ứng dụng thương mại. 
Một ngoại lệ là hệ thống dựa trên NeXT ; vốn được phát 
triển và thương mại hóa bởi Trillium Sound Research Inc, ở Calgary, 
Alberta, Canada.

  Đây là một công ty tách ra từ Đại học Calgary nơi các nghiên 
cứu ban đầu đã được thực hiện. Theo sau các vụ chuyển 
nhượng các từng phần của NeXT (bắt đầu từ Steve Jobs vào 
cuối những năm 1980 và việc hợp nhất với Apple năm 1997), phần 
mềm của Trillium được phân phát với giấy phéo tự do GPL. Dự 
án gnuspeech, một dự án của GNU, tiếp tục phát triển phần 
mềm này. Phần mềm gốc NeXT và các chuyển đổi sang cho Mac OS/X 
và GNUstep Trong GNU/Linux có thể tìm thấy tại trang GNU savannah

  ; chúng đều kèm theo tài liệu hướng dẫn trực tuyến và các 
bài viết liên quan đến lý thuyết nền tảng của công trình. 
Hệ thống, vốn được thương mại hóa lần đầu vào năm 1994,

  tạo ra một máy tổng hợp giọng nói dựa trên mô phỏng phát 
âm hoàn chỉnh, dựa trên mô hình ống dẫn sóng tương đương 
với cơ quan phát âm của người. Nó được

  điều khiển bởi Mô hình Phần Riêng biệt của Carré; bản 
thân mô hình này lại dựa trên công trình của Gunnar Fant và các 
người khác ở Phòng thí nghiệm Công nghệ Giọng nói Stockholm 
thuộc Viện Cộng nghệ Hoàng gia Thụy Điển về tổng hợp 
giọng nói cộng hưởng tần số. Công trình này cho thấy các 
cộng hưởng tần số trong ống cộng hưởng có thể được 
điều khiển bằng cách thay đổi tám tham số tương đồng với 
các cách phát âm tự nhiên của cơ quan phát âm của người. Hệ 
thống bao gồm một từ điển phát âm cùng với các quy tắc phát 
âm tùy thuộc ngữ cảnh để giúp ghép nối âm điệu và tạo ra 
các tham số phát âm; mô phỏng theo nhịp điệu và ngữ điệu thu 
được từ các kết quả nghiên cứu ngữ âm học.



   Tổng hợp lai

  Các hệ thống tổng hợp lai kết hợp các yếu tố của tổng 
hợp cộng hưởng tần số với tổng hợp ghép nối để giảm 
thiểu các tiếng cọ xát khi ghép nối các đoạn âm thanh.

  Một ví dụ là RecSimCat, phát triển bởi Shakti Singh Parmar có 
thể tạo ra giọng dễ nghe và tự nhiên.[


   Tổng hợp dựa trên HMM

  Tổng hợp dựa trên HMM là một phương pháp dựa vào
  mô hình Markov ẩn
  (HMM, viết tắt cho thuật ngữ tiếng Anh Hidden Markov model). Trong 
hệ thống này,
  phổ tần số
  của giọng nói,
  tần số cơ bản,
  và thời lượng đều được mô phỏng cùng lúc bởi HMM.
  Dạng sóng
  của giọng nói được tạo từ mô hình Markov ẩn dựa trên 
tiêu chí
  khả thực cực đại.



  Chuẩn hóa văn bản

   

  Quá trình chuẩn hóa văn bản thường không đơn giản. Lý do là 
các văn bản thường chứa nhiều từ cùng chữ, số và viết 
tắt đòi hỏi hiểu để diễn đạt lại trong văn bản đầy 
đủ.

   

  Trong một số ngôn ngữ, các từ có thể được phát âm khác 
nhau tùy theo ngữ cảnh. Đa số hệ thống tổng hợp giọng nói 
không tạo ra thể hiện văn phạm cho văn bản, vì quá trình này 
hiện chưa có công nghệ đáng tin cậy. Thay vào đó, nhiều cách 
lần mò được dùng để phân biệt các cách phát âm, như tìm 
các từ kế cận hay dùng thống kê về tần số xuất hiện.

   

  Việc chọn cách phát âm số cũng là một vấn đề. Lý do là 
cũng có nhiều cách phất âm số tùy theo văn cảnh. Như 1325 có 
thể đọc "một nghìn ba trăm hai mươi nhăm" nếu nó là một số 
tự nhiên,

  nhưng cũng có thể là "một ba hai năm" nếu nó là bốn số mật 
mã ngân khoản. Thường hệ thống tổng hợp giọng nói có thể 
đoán văn cảnh bằng việc quan sát các từ kế cận, các số hay 
dấu câu bên cạnh, hoặc dùng trường hợp mặc định khi không 
thể phân định.

   

  Tương tự, các cách viết tắt cũng có thể mang nhiều nghĩa, 
tùy thuộc quy ước của người viết.

   

  Văn bản sang âm vị

   

  Các hệ thống tổng hợp giọng nói dùng hai cách cơ bản để 
xác định cách phát âm cho một từ, một quá trình còn được 
gọi là chuyển đổi văn bản-sang-âm vị hay tự vị-sang-âm vị, 
vì âm vị là thuật ngữ dùng bởi các nhà ngôn ngữ học để 
mô tả các âm khác nhau trong ngôn ngữ.

   

  Cách thứ nhất, và đơn giản nhất, là dựa vào từ điển, 
sử dụng một từ điển lớn chứa tất cả các từ của một 
ngôn ngữ và chứa cách phát âm đúng tương ứng cho từng từ, 
lưu trong máy tính. Việc xác định cách phát âm đúng cho một 
từ chỉ đơn giản là tra trong từ điển và thay đoạn văn bản 
bằng mã phát âm đã ghi trong từ điển.

   

  Cách thứ hai là dựa trên quy tắc, sử dụng các quy tắc phát 
âm để tìm ra cách phát âm tương ứng cho mỗi từ phù hợp với 
quy tắc.

   

  Mỗi cách đều có ưu điểm và nhược điểm. cách dựa trên 
từ điển nhanh và chính xác, nhưng sẽ không hoạt động nếu 
từ cần phát âm không có trong từ điển và lượng

  từ vựng cần lưu là lớn. Cách dùng quy tắc hoạt động với 
mọi văn bản (miễn là phù hợp với quy tắc) nhưng độ phức 
tạp của các quy tắc có thể tăng cao nếu ngôn ngữ có nhiều 
trường hợp bất quy tắc trong phát âm. Hầu hết các hệ thống 
tổng hợp giọng nói đều dùng kết hợp cả hai cách.

   

  Một số ngôn ngữ, như

  tiếng Tây Ban Nha hay tiếng Việt, có hệ thống viết dựa trên 
cách phát âm một cách rất có quy tắc, và việc tiên đoán cách 
phát âm từ cách viết thường có tỷ lệ thành công cao. Các hệ 
thống tổng hợp giọng nói cho các ngôn ngữ này thường dùng 
chủ yếu cách dựa trên quy tắc, chỉ tra từ điển một vài từ 
đặc biệt như tên vay mượn từ nước ngoài.

   

  Một số ngôn ngữ khác, như tiếng Anh, có hệ thống phát âm 
rất bất quy tắc, thường cần hệ thống tổng hợp giọng nói 
dựa chủ yếu trên từ điển và dùng các quy tắc cho những từ 
không có trong từ điển.

   

  Ngôn ngữ đánh dấu cho tổng hợp giọng nói

   

  Có nhiều ngôn ngữ đánh dấu đã được hình thành cho việc 
tạo giọng nói từ văn bản, phù hợp với chuẩn XML.

  Một ví dụ cho ngôn ngữ kiểu này là SSML được W3C đề 
xuất. Các ngôn ngữ đánh dấu cũ hơn có SABLE Và JSML.

  Các ngôn ngữ này đều được đề xuất là chuẩn chung, nhưng 
chưa có ngôn ngữ nào được dùng đủ rộng rãi để thiết lập 
thành chuẩn chung.

   

  Một tập con của CSS 2 chứa ACSS cũng phục vụ mục đích tổng 
hợp giọng nói.

   

  Ngôn ngữ đánh dấu tổng hợp giọng nói khác với ngôn ngữ 
đánh dấu đàm thoại (như

  VoiceXML).

  Các ngôn ngữ đánh dấu đàm thoại, ngoài chứa các thông tin 
chuyển văn bản sang giọng nói, còn có các thẻ cho phép nhận 
dạng giọng nói, quản lý đàm thoại và thông tin về quay số 
điện thoại bằng âm thanh.

   

  Apple

   

  Hệ thống tổng hợp giọng nói đầu tiên được tích hợp vào 
trong một hệ điều hành là Macintalk của Máy tính Apple năm 1984. 
Apple là một trong những nhà sản xuất đầu tiên đưa hệ thống 
tổng hợp giọng nói vào các hệ điều hành thương mại. Trong 
những năm 1990, các giọng nói của Apple được tổng hợp từ 
các mẫu tự nhiên. Tuy nhiên gần đây, Apple đã thêm các mẫu 
giọng nói tổng hợp, là Vicki và Bruce - đặt tên theo giáo sư và 
nghiên cứu sinh tại khoa ngôn ngữ học UCLA,

  những người đã cung cấp các mô hình giọng nói này. Các 
phần mềm đầu tiên chỉ có ý định gây sự tò mò cho khách 
hàng và không được Apple hỗ trợ trực tiếp;

  tuy nhiên hệ thống tổng hợp giọng nói của máy tính Macintosh

  đã tiến hóa thành một chương trình được hỗ trợ đầy 
đủ cho người khiếm thị.

   

  AmigaOS

   

  Hệ điều hành thứ hai trên thị trường tích hợp hệ thống 
tổng hợp giọng nói là AmigaOS năm

  1985.

  Hệ thống này được cấp phép cho Commodore International từ một 
bên thứ ba là một hãng phần mềm ( Don't Ask Software, nay là 
Softvoice, Inc.) và nó có một hệ thống mô phỏng giọng người 
hoàn chỉnh, có cả giọng nam và giọng nữ với các âm sắc khác 
nhau, dùng các tính năng nâng cao của các chip điện tử trong 
phần cứng Amiga. Nó được chia làm hai phần: phần đọc bình 
luận và một thư viện dịch thuật. Phần mềm Speak Handler của 
Amiga có phần dịch thuật văn bản sang tiếng nói, dùng hệ 
thống tổng hợp âm vị ARPAbet. AmigaOS coi hệ thống tổng hợp 
giọng nói như một thiết bị phần cứng ảo, nên người dùng 
có thể chuyển tín hiệu ra từ phần mềm khác đến nó giống 
như đến máy in hay màn hình. Một số phần mềm trong Amiga, như 
trình soạn thảo văn bản, dùng nhiều hệ thống này.



  Windows

   

  Các hệ điều hành Windows hiện đại dùng các hệ thống tổng 
hợp giọng nói dựa trên SAPI4 và SAPI5, kèm theo máy nhận dạng 
giọng nói. SAPI 4.0 có mặt trên các hệ điều hành như Windows 9x.

   

  Nhiều phần mềm, như mIRC, dùng nhiều chức năng trong SAPI 4.0 
hay SAPI 5.0. Windows XP có phần mềm Narrator. Hầu hết các phần 
mềm tương thích với Windows như Notepad, Office hay Adobe Acrobat có 
thể dùng các tính năng tổng hợp giọng nói; tùy theo lựa chọn 
trên trình đơn sau khi đã cài đặt. Chúng cung cấp hỗ trợ cho 
người khiếm thị.

   

  Một ví dụ về việc SAPI 5 cho phép một phần mềm kết hợp 
công nghệ của Microsoft thành một màn hình nền có tính tương 
tác cao là Talking desktop. Phần mềm này kết hợp chức năng nhận 
dạng giọng nói với các phát âm của SAPI 5.

   

  Microsoft Speech Server là một gói hoàn chỉnh để tổng hợp và 
nhận dạng giọng nói, và có thể ứng dụng cho các hệ thống 
liên lạc điện thoại có máy tính dùng Windows.

   

    GNU/Linux Có rất nhiều hệ thống tổng hợp giọng nói cho 
GNU/Linux và đều có mã nguồn mở. Ví dụ bao gồm
  Festival, của Đại học Edinburgh,
  hay gnuspeech, của Tổ chức Phần mềm Tự do.



  TI-99/4 và TI-99/4A

  TI-99/4 (1979) và TI-99/4A (1981) có thể đọc văn bản ở chế 
độ đọc từng chữ và đọc cả đoạn.

  Trong máy TI Extended BASIC, lệnh CALL SAY có thể được dùng. Ví 
dụ, CALL SAY("I AM A TEXAS INSTRUMENTS T I 99 4 A HOME COMPUTER") sẽ 
khiến nó nói về bản
  thân với giọng Texas. Trong hệ thống này, ở chế độ đọc 
cả từ, các từ lạ sẽ được phát âm bằng cách đọc từng 
chữ cái. Ở chế độ đọc từng chữ cái, chất lượng
  giảm hẳn, dù hệ thống sẽ đọc bất cứ văn bản nào gửi 
đến nó.

  TI-99/4 (1979) và TI-99/4A (1981) chứa các bộ vi xử lý 16-bit.



   Bên thứ ba

  Các hệ thống phát triển bởi bên thứ ba có thể được tích 
hợp vào trong các
  hệ điều hành
  (trừ SAPI) là
  Lernout & Hauspie
  (LH)
  TTS 3000,
  1st Read It Aloud!,
  Total Speech,
  PCVoz,
  TextAloud,
  Read Genius,
  Speech RealSpeak,
  IBM ViaVoice
  và
  Dolphin Orpheus
  [1].







  Name: Nguyen Hoang Bao Vu
  Home: 210C Hiep Binh Chanh tenement. Thu Duc district Ho Chi Minh City Viet 
Nam

  Home Phone: 7262214
  Cell-phone: 0989350014
  Yahoo ID: nguyenhoangbaovu
  MSN ID: nguyenhoangbaovu
  Skype ID: nguyenhoangbaovu
  Blog: 360.yahoo.com/nguyenhoangbaovu

Other related posts: