TTS是壹種語音合成應用程序,它將存儲在計算機中的文件(如幫助文件或網頁)轉換為自然的語音輸出。TTS可以幫助有視覺障礙的人閱讀計算機上的信息,或者它可以簡單地用於增加文本文檔的可讀性。今天的TTL應用包括語音驅動的電子郵件和語音感應系統。TTS通常與語音識別程序壹起使用。現在有很多TTS產品,包括Read Please 2000,Proverbe語音單元,以及Next Up技術的TextAloud。朗訊,Elan,還有at & amp;t有自己的語音合成產品。
除了TTS軟件,許多廠商還提供硬件產品,包括以色列WizCom Technologies的Quick Link Pen,這是壹種類似筆的設備,可以掃描和閱讀文本。還有鴕鳥軟件的Road Runner,可以讀取ASCII文本的手持設備;另外還有美國DEC公司的DecTalk TTS,是壹種可以替代聲卡的外接硬件設備。它包含壹個內部軟件設備,可以與個人計算機自帶的聲卡壹起工作。TTS文語轉換應用廣泛,包括電子郵件閱讀、IVR系統的語音提示等。目前,IVR系統已經廣泛應用於各個行業(如電信、交通等)。).
TTS的關鍵技術是語音合成。早期的TTS壹般是用專用芯片來實現的,比如德州儀器的TMS50C10/TMS50C57,飛利浦的PH84H36,但主要應用在家用電器或兒童玩具中。
基於微機應用的TTS壹般由純軟件實現,主要包括以下幾個部分:
文本分析——對輸入的文本進行語言學分析,逐句進行詞法、語法、語義分析,確定句子的底層結構和每個詞的音素構成,包括斷句、分詞、多音字處理、數字處理、縮寫處理等。
●語音合成-從語音合成數據庫中提取與處理後的文本相對應的單詞或短語,並將語言描述轉換為語音波形。
●韻律處理——合成語音的質量是指語音合成系統輸出的語音質量,壹般從清晰度(或可懂度)、自然度、連貫性等方面進行主觀評價。清晰度是正確聽有意義單詞的百分比;自然度用於評價合成語音的質量是否接近人聲,合成詞的語調是否自然。連貫性用於評價合成句子的流暢性。
要合成高質量的語音,使用的算法極其復雜,所以對機器的要求也非常高。算法的復雜度決定了目前微機並發多通道TTS的系統容量。
在壹般的CTI應用系統中,會有IVR(交互式語音應答系統)。IVR系統是呼叫中心的重要組成部分。通過IVR系統,用戶可以通過按下帶有音頻的按鈕來輸入信息,並從系統中獲得預先錄制的數字或合成語音信息。具有TTS功能的IVR可以加快服務速度,節省服務成本,使IVR可以為呼叫者提供7*24小時服務。
目前常見的IVR系統大多由插在通用工控機平臺上的語音卡組成,支持中文語音合成TTS等技術。
包括TTS服務在內的典型電話服務流程可分為:
當用戶撥入時,系統IVR會響應並獲取用戶的密鑰等信息。
IVR根據用戶的關鍵信息向數據庫服務器申請相關數據。
數據庫服務器向IVR返回文本數據。
IVR通過其TCP通信接口將文本信息發送給TTS服務器。
TTS服務器通過TCP通信接口將用戶文本合成的語音數據段發送給IVR服務器。
IVR服務器將分段的語音數據組裝成獨立的語音文件。
IVR向電話用戶播放相應的語音文件。
壹般的公網接入(IVR)多采用工控機+語音卡,合成的語音數據通過局域網傳輸到IVR。這種結構只適用於簡單的應用。包括漢語語音處理和語音合成,利用漢語韻律等相關知識對漢語句子進行分詞、詞性判斷、註音和數字符號轉換,語音合成通過查詢漢語語音數據庫獲得語音。目前,中國著名的TTS系統有:IBM、微軟、富士通、科大訊飛和捷通華聲。目前漢語的韻律處理、符號數、多音字、構詞法都存在很多問題,需要不斷研究,使漢語語音合成更加自然。CTI技術融合了電信和計算機,克服了傳統電信和計算機服務的缺點,將兩者完美結合。它的應用領域非常廣泛,任何需要語音和數據通信的系統都會用到CTI技術,特別是那些希望將計算機網絡和通信網絡結合起來完成語音和數據信息交換的系統。
TTS (Text To Speech)涉及聲學、語言學、數學信號處理技術、多媒體技術等學科,是中文信息處理領域的前沿技術,實現了將計算機中出現的任何文本轉換成自然流暢的語音輸出。
TTS可以應用於CTI系統中的IVR(交互式語音應答)服務器,提供語音交互平臺,為用戶的電話呼叫提供語音提示,指導用戶選擇服務內容和輸入電話交易所需的數據,接受用戶在電話撥號鍵盤上輸入的信息,實現對計算機數據庫和其他信息資料的交互訪問。
TTS在IVR中的應用可以自動將文本信息轉換成語音文件,也可以將文本信息實時合成語音並通過電話發布。實現文字與語音的自動雙向轉換,從而實現人與系統的自動交互,隨時隨地為客戶服務。維護人員不再需要人工錄音,只需要將電子文檔導入系統,系統就可以自動將電子文檔轉換成語音信息,播放給客戶。存儲在數據庫中的大量數據可以根據查詢條件隨時查詢出來,無需事先錄音,還可以播放合成語音,大大減輕了坐席人員的工作量。
那麽如何給CTI應用附加TTS功能呢?壹些先進的交換平臺已經在交換機內部實現了TTS的功能,並將其作為標準接口的壹部分提供。業務開發人員只需調用它們就可以在業務中使用這個函數。
對於沒有TTS功能的PBX,需要業務開發者選擇合適的平臺,並在此基礎上進行二次開發,即調用所選TTS平臺提供的標準接口實現語音合成功能。
目前,CTI已經成為全球發展最快的行業之壹,年增長率高達50%。CTI和計算機行業壹樣,是壹個金字塔形狀的產業鏈,從上到下至少會增值20倍。TTS作為壹種極具吸引力的新技術,如果能很好地嵌入到增值業務的應用中,將會有更好的應用前景。
杭州銀通軟件有限公司是由教育部和浙江省人民政府批準成立,依托浙江大學的高科技公司。銀通公司主要致力於計算機語音技術的研發,並逐步開展語音識別、語音流媒體傳輸等其他語音領域的研究。其核心技術(Intone_TTS)是具有自主知識產權的中文語音合成技術,在浙江省科技廳組織的鑒定中被專家壹致認定為國內領先地位,並申請了多項國家專利。
Intone_TTS是壹個將文本信息轉換為語音信息的開發工具包,為系統集成商和軟件開發商提供了完整的界面功能和編程實例,使用戶能夠靈活地調用和集成到其他應用系統中。接口需要語音合成運行時的支持,適用於各種開發環境。開發者可以根據具體應用進行選擇。
它可以合成所有的漢字、英文和阿拉伯數字;
支持繁體字和多音字的編輯;
合成效果:自然流暢;
標準函數調用接口,支持微軟SAPI的調用;支持同步調用和異步調用;
支持PCM Wave、uLaw/aLaw Wave、ADPCM、Dialogvox等語音格式;
支持GB2312碼(簡體中文)、BIG5碼(繁體中文)、UNICODE碼;
支持多聲道同步合成;
支持Dialogic、靳東、三匯等主流語音板;TTS就是文本轉語音,文本轉語音,文本閱讀,意思差不多。它常用於語音系統的開發。
目前市場上有很多TTS,實現方式也是多種多樣,有些非常昂貴,比如科大訊飛,據說是863計劃資助的,技術很高;有的相對便宜,比如捷通華聲,InfoTalk;也有免費的,比如微軟的TTS產品。
相對於ASR(自動語音識別)來說,實現壹個TTS產品所需的技術難度並不大,在我看來是個苦差事。
如果我們要做壹個可以大聲朗讀中文句子的TTS,我們會怎麽做?
還有最簡單的TTS,就是每個字都要發音。妳會問,妳不是要錄六千多個漢字嗎?好在漢語音節少,同音字多。我們最多只需要記錄:聲母數×韻母數×4(其實不是每個發音都有四個音),所以我們最多只需要記錄幾百個語音。
合成的時候需要壹個拼音對應的漢字對照表,漢語拼音輸入法也要靠這個表,網上可以查到,但是通常四聲都沒有,得自己加,呵呵,或者怎麽說都是辛苦。
TTS效果可以不錯,尤其是讀壹些沒有特別含義的中文句子,比如姓名、家庭住址、股票代碼,聽起來足夠清晰。這是因為我們偉大的母語通常是單音節的。自古以來,每個漢字都有壹個字來表達壹個意思。而且,漢字和英文不壹樣。英語連讀多,聲調節奏變化大,漢字就簡單多了。
當然,妳還是要處理壹些細節,比如復調,把“銀行”念成“銀行”是不對的;比如標點符號、數字、字母的處理,這些問題對於寫過很多程序的妳來說當然不難。
國內壹些帶語音卡的TTS,不管是賣錢的還是免費的,壹般都是這樣做的,就是這個效果。
如果想提高TTS的效果,那就要多下功夫,把基礎單詞記錄成讀音,比如常見的二字成語、四字成語,然後做壹個詞庫和讀音數據庫的對照表,每次需要合成的時候就在詞庫裏找。這樣以詞為單位自然比以詞為單位好很多。當然還有壹項技術,就是分詞技術。把復雜的句子分解成合理的詞序也有點技術含量。這也要歸功於新文化的先行者們,他們在提倡白話文,引進西文的橫格式和標點符號的時候,並沒有引進西文的空間分詞。不過,即使分詞算法沒有那麽高效準確,也不是什麽大問題。前面說過,漢字是單音節詞,壹般不會有拼音的錯誤。
當然,科大訊飛做了很多艱苦的工作。據說他已經進化到可以記錄常用句子了。可想而知,要付出更多的努力,才能得到更好的結果。
至於在交界處加壹些“字”,弄點裝飾色調,我覺得無關緊要,整體效果提升不大。
市面上商業化的TTS壹般都支持粵語,所以請個粵語播音員錄下來再做壹遍。
換個角度說,很多人認為最好找電臺或者電視臺的播音員來錄制。其實找個身邊的女同事來錄,只要字正腔圓就行。有些時候,普通的聲音比字正腔圓的新聞廣播更可愛。
先說文字的識別。對於復雜的文本,有些內容程序處理不了,需要識別。比如簡單的數字“128”應該讀作“128”還是“128”?解決方案通常是添加XML標記,如微軟的TTS:“
先說TTS應用編程。微軟的TTS編程接口叫做SAPI,是壹個COM接口。開發起來還是有點麻煩,不過好在MSDN網站上的信息很全面。微軟的TTS雖然是免費的,但是目前中文角色是男聲,聲音有點渾濁不舒服。
壹般國內廠商都提供API調用接口,相對簡單,很容易嵌入到應用中。
商業TTS還有壹個並發許可限制,就是限制同時合成的並發線程數量。我覺得這個限制用處不大。無論什麽TTS,都可以將文本文件轉換成語音文件供語音卡播放。大部分應用句子比較短,壹般不超過100個漢字,合成時間很短。只要弄壹個線程負責合成,其他應用就可以從這個線程請求。萬壹句子長,就把它拆成幾個短句,播放速度總是比合成速度慢。
很多應用都是離線合成,沒有實時性要求,更不要說買多個許可證了。
更多情況下,我們甚至不需要購買TTS,比如語音開發中常見的費用提醒。撥通後我們打出:“尊敬的客戶,您這個月的費用是212元”。前壹部分對所有客戶都壹樣。錄個語音文件就行了,數字合成很簡單。只需要錄10個數字語音,加100元。
TTS(培訓+工具+方案)超出計劃。
針對目前成長型企業遇到的人力資源問題,立體化解決人力資源瓶頸,通過人才和專家來構建和實現人力資源方向,是壹項重大的智力工程。為企業培養高級人力資源管理人才,提供先進的人力資源管理工具,協助企業建立現代人力資源戰略規劃。通過“培訓)+工具)+方案”的方法,為企業系統解決人力資源難題,進而構建科學完善的人力資源管理體系。
TTS天津碼頭附加費
天津港附加費。2009年通過日本和韓國的船只收取的費用。