牧夫天文网

 找回密码
 加入牧夫(请注明天文爱好者,否则无法通过审核)

QQ登录

只需一步,快速开始

Google要搜索和跟踪你的声音(转帖)

[复制链接]
開信光電 发表于 2010-9-1 15:57 | 显示全部楼层 |阅读模式 来自: 广东省佛山市 电信

马上注册,结交更多好友,享用更多功能,让你轻松玩转社区。

您需要 登录 才可以下载或查看,没有账号?加入牧夫(请注明天文爱好者,否则无法通过审核)

x

                                                IT: Google要搜索和跟踪你的声音                                               

                                        matrix  发表于 2010年9月01日 14时32分 星期三                                                                                                                    
                来自Google目田部门       
                                                                                                                                                                                        
                                        全世界的信息中有相当大部分是由声音构成,搜索巨人已经认识到了这一点,它正在开发语音识别和合成技术,并应用到各种服务上。领导Google的语音技术开发与产品应用的Mike Cohen介绍说,语音技术系统的基本架构:第一步是收到的声波分成每10毫秒一组、辨识其声音属性上的微妙差异,制作出声音的数字表现。接下来是困难的部分,将声音组对应英语中数十亿组声音组合(其它语言的程序类似,但对应组的数量各不相同)。Google的方法是分析声音的音质,识别出其“音素”...一个难题是背景噪音,另一个主要问题是语句的复杂度,此外还有腔调和方言,昵称、俚语和口齿不清、句子不完整等情况,都会混淆语音识别系统。
 楼主| 開信光電 发表于 2010-9-1 15:58 | 显示全部楼层 来自: 广东省佛山市 电信


2010/09/01 13:44:01
Google 追尋自己的聲音
Michael Krigsman 原著

       
留下回應
               
                                 


領導Google的語音技術開發與產品應用的Mike Cohen,最近接受本站專訪時表示:「Google的使命是整理全世界的資訊,問題是,許多資訊都是用說的。」

Google要開發出適用行動運算和網路應用軟體的語音辨識技術。也就是,將重度運算交給資料中心,又能在硬體配備有限之網際網路和行動裝置上執行的簡單、好用的軟體。

電腦語音辨識已存在將近百年(1911年上市的Radio Rex玩具狗即可回應呼叫),但一直無法達到科幻電影中那種精細、靈敏和準確的程度。然而,Cohen相信,業界即將實現重大的突破。他說:「我們的目標是完全普及的語音輸入和輸出,任何可行的地方,我們都要提供非常優良的(語音辨識)。」

聽到你的聲音

2004年加入Google的Cohen,已在這個領域耕耘26年。他在Google的主要工作,是將先進的語音辨識和合成技術,應用到Google的各種服務上。

Cohen表示,目前主要的語音技術系統大都已確立其基本架構。第一步是收到的聲波分成每10毫秒一組、辨識其聲音屬性(抑揚頓錯)上的微妙差異,製作出那些聲音的數位呈現。接下來是困難的部份,將這些聲音組對應英語中數十億組聲音組合。(其他語言的程序相同,但對應組的數量各不相同。)

Cohen說:「這基本上就是一個大的統計模型。」Google的方法是分析聲音的音質,辨識出其「音素」(phoneme),這些音素如何組成個別的字,和文法如何將那些字構成句子。基本的方法各家公司大都相同,但Cohen自然認為Google有獨特的優勢。

時間和資料

語音辨識是一個極度運算密集的挑戰,即使簡單的語音指令,都需要許多運算資源來解讀。所幸,Google已累積了大量有關全球使用者的搜尋模式資料,和透過其書籍搜尋計畫所數位化的上千萬本圖文內容。這些資料都能用在語音辨識的處理。

因此,Cohen認為,Google能在更快的時間內提供更準確的結果,因為他們有能力消化龐大的新資料,並與較舊的資料進行比對。Google的最新成果展現在其Android行動作業系統,使用者只要按下一個麥克風鍵,即可用聲音搜尋網路,或啟動特定應用程式。

聲音障礙

然而,多數人都同意,現在仍沒有一家公司能提供真正可靠的語音辨識技術。問題究竟是什麼?

Cohen表示,眼前最根本的問題是背景噪音。行動使用者經常因為風聲、背景對話或車輛噪音,影響辨識系統的聲音接收。改善麥克風或許有助,但系統必須加強處理這類干擾的能力。另一個主要問題是預期使用者會說什麼字,並準確地合成句子,所涉及的複雜度。這不只是腔調和方言的問題,還有暱稱、俚語和口齒不清、句子不完整等情況,都會混淆最聰明的系統。

用語音搜尋的人通常會自動說出關鍵字或關鍵句,如「台北東區的餐廳」,這在預測和交叉比對上都相當有幫助。但語音郵件則完全無法預測,尤其是基於隱私保護,Google沒有保留這部份的資料庫。

儘管還有許多挑戰,不論內外,人們都開始期待Google的語音技術將實現長久以來的幻想。改變長期的輸入習慣需要一些時間,但我們已經看到有些人拋棄以往的電腦輸入方式(鍵盤和滑鼠),開始擁抱觸控和語音輸入。Cohen說:「我們不是要消滅既有的輸入方法,而是提供另一種選擇。」(陳智文/譯)
回复 支持 反对

使用道具 举报

本版积分规则

快速回复 返回顶部 返回列表