TTS是Text To Speech的縮寫,即“從文本到語音”。它是同時運用語言學和心理學的傑出之作,在內置芯片的支持之下,通過神經網絡的設計,把文字智能地轉化為自然語音流。TTS技術對文本文件進行實時轉換,轉換時間之短可以秒計算。在其特有智能語音控制器作用下,文本輸出的語音音律流暢,使得聽者在聽取信息時感覺自然,毫無機器語音輸出的冷漠與生澀感。TTS語音合成技術即將覆蓋國標壹、二級漢字,具有英文接口,自動識別中、英文,支持中英文混讀。所有聲音采用真人普通話為標準發音,實現了120-150個漢字/秒的快速語音合成,朗讀速度達3-4個漢字/秒,使用戶可以聽到清晰悅耳的音質和連貫流暢的語調。現在有少部分MP3隨身聽具有了TTS功能。
TTS是語音合成應用的壹種,它將儲存於電腦中的文件,如幫助文件或者網頁,轉換成自然語音輸出。TTS可以幫助有視覺障礙的人閱讀計算機上的信息,或者只是簡單的用來增加文本文檔的可讀性。現在的TTL應用包括語音驅動的郵件以及聲音敏感系統。TTS經常與聲音識別程序壹起使用。現在有很多TTS的產品,包括Read Please 2000, Proverbe Speech Unit,以及Next Up Technology的TextAloud。朗訊、 Elan、以及 AT&T都有自己的語音合成產品。
除了TTS軟件之外,很多商家還提供硬件產品,其中包括以色列WizCom Technologies公司的 Quick Link Pen,它是壹個筆狀的可以掃描也可以閱讀文字的設備;還有Ostrich Software公司的Road Runner,壹個手持的可以閱讀ASCII文本的設備;另外還有美國DEC公司的DecTalk TTS,它是可以替代聲卡的外部硬件設備,它包含壹個內部軟件設備,可以與個人電腦自己的聲卡協同工作。
[編輯本段]TTS解析
TTS文語轉換用途很廣,包括電子郵件的閱讀、IVR系統的語音提示等等,目前IVR系統已廣泛應用於各個行業(如電信、交通運輸等)。
TTS所用的關鍵技術就是語音合成(SpeechSynthesis)。早期的TTS壹般采用專用的芯片實現,如德州儀器公司的TMS50C10/TMS50C57、飛利浦的PH84H36等,但主要用在家用電器或兒童玩具中。
而基於微機應用的TTS壹般用純軟件實現,主要包括以下幾部分:
●文本分析-對輸入文本進行語言學分析,逐句進行詞匯的、語法的和語義的分析,以確定句子的低層結構和每個字的音素的組成,包括文本的斷句、字詞切分、多音字的處理、數字的處理、縮略語的處理等。
●語音合成-把處理好的文本所對應的單字或短語從語音合成庫中提取,把語言學描述轉化成言語波形。
●韻律處理-合成音質(Qualityof Synthetic Speech)是指語音合成系統所輸出的語音的質量,壹般從清晰度(或可懂度)、自然度和連貫性等方面進行主觀評價。清晰度是正確聽辨有意義詞語的百分率;自然度用來評價合成語音音質是否接近人說話的聲音,合成詞語的語調是否自然; 連貫性用來評價合成語句是否流暢。
要合成出高質量的語音,所采用的算法是極為復雜的,因此對機器的要求也非常高。算法的復雜度決定了目前微機並發進行多通道TTS的系統容量。
TTS在CTI的應用中的基本構架
在壹般的CTI應用系統中,都會有IVR(交互式語音應答系統)。IVR系統是呼叫中心的重要組成部分,通過IVR系統,用戶可以利用音頻按健電話輸入信息,從系統中獲得預先錄制的數字或合成語音信息。具有TTS功能的IVR可以加快服務速度,節約服務成本,使IVR為呼叫者提供7*24小時的服務。
目前常見的IVR系統大都是通用的工控機平臺上插入語音板卡組成,並支持中文語音合成TTS等技術。
壹個典型的包含TTS服務的電話服務流程可分為:
用戶電話撥入,系統IVR響應,獲得用戶按鍵等信息。
IVR根據用戶的按鍵信息,向數據庫服務器申請相關數據。
數據庫服務器返回文本數據給IVR。
IVR通過其TCP通訊接口,將需要合成的文本信息發送給TTS服務器。
TTS服務器將用戶文本合成的語音數據分段通過TCP通訊接口發送給IVR服務器。
IVR服務器把分段語音數據組裝成為獨立的語音文件。
IVR播放相應的語音文件給電話用戶。
壹般的公網接入(IVR)大都采用工控機+語音板卡,而合成的語音數據則通過局域網傳給IVR。這種結構只適用於簡單的應用場合。