百度語(yǔ)音識(shí)別系統(tǒng)入選MIT2016十大突破技術(shù)


來(lái)源:人民郵電報(bào)   時(shí)間:2016-03-07





  近日,美國(guó)權(quán)威雜志《麻省理工評(píng)論》將語(yǔ)音接口列為2016年十大突破技術(shù),百度硅谷人工智能實(shí)驗(yàn)室(SVAIL)最新的研究成果——新一代深度語(yǔ)音識(shí)別系統(tǒng)DeepSpeech2位列其中。


  這也是本次評(píng)選入選的唯一一家來(lái)自中國(guó)科技公司的科技成果。同時(shí)入選的還有免疫工程、精確編輯植物基因、DNA商店、太陽(yáng)能電池工廠、特斯拉自動(dòng)駕駛、可回收火箭,以及空中取電、知識(shí)分享機(jī)器人、slack通信軟件等產(chǎn)品和技術(shù),分別來(lái)自谷歌、微軟、SpaceX等多個(gè)領(lǐng)域的知名前沿科技公司和加州大學(xué)伯克利分校、華盛頓大學(xué)、首爾大學(xué)等科研機(jī)構(gòu)。


  在去年9月召開的2015年百度世界大會(huì)上,百度首席科學(xué)家吳恩達(dá)曾現(xiàn)場(chǎng)演示神奇的語(yǔ)音識(shí)別技術(shù)。他表示,語(yǔ)音有很大的潛力改變?nèi)伺c設(shè)備的交互方式,“現(xiàn)在語(yǔ)音識(shí)別可能已達(dá)到95%的準(zhǔn)確度,但很多人沒(méi)意識(shí)到95%的準(zhǔn)確度到99%的準(zhǔn)確度帶來(lái)的不是量變是質(zhì)變,是從你偶爾使用語(yǔ)音變到常常使用做到更自然。做到99%準(zhǔn)確,將徹底改變?nèi)伺c設(shè)備的交互?!?/br>


  《麻省理工評(píng)論》在文中評(píng)價(jià)說(shuō):“隨著百度在語(yǔ)音技術(shù)方面的不斷進(jìn)步,語(yǔ)音接口變得更為實(shí)用和有效,人們可以更為便利地與身邊的設(shè)備進(jìn)行互動(dòng)。百度的深度語(yǔ)音識(shí)別系統(tǒng)(DeepSpeech2)包含了一個(gè)非常大的、‘深’的神經(jīng)網(wǎng)絡(luò),它引入了數(shù)以百萬(wàn)計(jì)的轉(zhuǎn)錄語(yǔ)音。有時(shí)它在識(shí)別漢語(yǔ)語(yǔ)音片段方面,要比人為識(shí)別更加準(zhǔn)確。”


  2014年年底,吳恩達(dá)及其團(tuán)隊(duì)發(fā)布了第一代深度語(yǔ)音識(shí)別系統(tǒng)DeepSpeech,該系統(tǒng)使用了端對(duì)端的深度學(xué)習(xí)技術(shù),主要專注于提高嘈雜環(huán)境下的英語(yǔ)語(yǔ)音識(shí)別的準(zhǔn)確率,在噪音環(huán)境下,DeepSpeech系統(tǒng)出錯(cuò)率要比谷歌、微軟以及蘋果的語(yǔ)音系統(tǒng)低10%以上。不僅如此,研究人員還加入了漢語(yǔ)語(yǔ)音查詢功能,識(shí)別準(zhǔn)確率高達(dá)94%。這也推動(dòng)端到端的深度學(xué)習(xí)算法成為業(yè)內(nèi)改進(jìn)語(yǔ)音識(shí)別最重要的手段。


  MIT報(bào)道中指出,語(yǔ)音識(shí)別和自然語(yǔ)言理解相結(jié)合,將為互聯(lián)網(wǎng)市場(chǎng)創(chuàng)造切實(shí)可用的語(yǔ)音接口。由于漢字通過(guò)微型觸摸屏進(jìn)行輸入的過(guò)程耗時(shí)且十分繁瑣,因此,中國(guó)是發(fā)展語(yǔ)音接口的理想市場(chǎng)。


  漢語(yǔ)語(yǔ)音識(shí)別與英文相比,包含兩大難點(diǎn)。第一是字符數(shù)據(jù)量大。相比于英文的26個(gè)字母,系統(tǒng)要在每次轉(zhuǎn)錄中直接輸出8萬(wàn)個(gè)中文字符中的其中一個(gè)。第二,在普通話的表述中,聲調(diào)的不同往往會(huì)改變一個(gè)詞的意思。百度通過(guò)收集人們常用詞,篩選出有用的字符,并省去大量預(yù)處理環(huán)節(jié),直接輸入音頻文件,再通過(guò)深度神經(jīng)網(wǎng)絡(luò)輸出字符,從而大大提高系統(tǒng)運(yùn)算效率。


  深度語(yǔ)音識(shí)別系統(tǒng)的成功,很大程度上要取決于百度規(guī)模龐大的基于GPU的深度學(xué)習(xí)基礎(chǔ)設(shè)施。通過(guò)使用批處理技術(shù)將DNNs部署在GPUs上,DeepSpeech的語(yǔ)音識(shí)別表現(xiàn)出了極高的訓(xùn)練效率。目前,該系統(tǒng)支持超過(guò)26萬(wàn)億次浮點(diǎn)運(yùn)算,可在幾天內(nèi)完成深度語(yǔ)言的集中訓(xùn)練。


  隨著百度在語(yǔ)音技術(shù)方面的不斷進(jìn)步,語(yǔ)音接口變得更為實(shí)用和有效,將深度語(yǔ)音模型在更小的系統(tǒng)上運(yùn)行是重要的趨勢(shì)之一。百度正致力于將該語(yǔ)音模型縮小并植入手機(jī)等移動(dòng)設(shè)備,未來(lái),人們可以更為便利地與身邊的設(shè)備進(jìn)行交流互動(dòng)。



  版權(quán)及免責(zé)聲明:凡本網(wǎng)所屬版權(quán)作品,轉(zhuǎn)載時(shí)須獲得授權(quán)并注明來(lái)源“中國(guó)產(chǎn)業(yè)經(jīng)濟(jì)信息網(wǎng)”,違者本網(wǎng)將保留追究其相關(guān)法律責(zé)任的權(quán)力。凡轉(zhuǎn)載文章,不代表本網(wǎng)觀點(diǎn)和立場(chǎng)。版權(quán)事宜請(qǐng)聯(lián)系:010-65363056。

延伸閱讀

熱點(diǎn)視頻

第六屆中國(guó)報(bào)業(yè)黨建工作座談會(huì)(1) 第六屆中國(guó)報(bào)業(yè)黨建工作座談會(huì)(1)

熱點(diǎn)新聞

熱點(diǎn)輿情

特色小鎮(zhèn)

版權(quán)所有:中國(guó)產(chǎn)業(yè)經(jīng)濟(jì)信息網(wǎng)京ICP備11041399號(hào)-2京公網(wǎng)安備11010502003583