百度語(yǔ)言與知識(shí)技術(shù)峰會(huì)召開 王海峰揭秘NLP技術(shù)演進(jìn)路徑


來源:中國(guó)產(chǎn)業(yè)經(jīng)濟(jì)信息網(wǎng)   時(shí)間:2020-08-25





  AI正在向更深層次進(jìn)化,語(yǔ)言與知識(shí)技術(shù)的重要性愈加凸顯。8月25日,以“掌握知識(shí)、理解語(yǔ)言、擁有智能”為主題的百度大腦語(yǔ)言與知識(shí)技術(shù)峰會(huì)重磅開啟,百度CTO王海峰發(fā)表主旨演講,解讀百度語(yǔ)言與知識(shí)技術(shù)的發(fā)展歷程與最新成果,與產(chǎn)學(xué)研各界分享技術(shù)及產(chǎn)業(yè)發(fā)展趨勢(shì)和展望,百度集團(tuán)副總裁吳甜和百度技術(shù)委員會(huì)主席吳華分別發(fā)布百度語(yǔ)言與知識(shí)技術(shù)系列產(chǎn)品和數(shù)據(jù)集共建計(jì)劃,重磅推出5款產(chǎn)品的新發(fā)布,全面加速AI技術(shù)大規(guī)模應(yīng)用。在演講中,王海峰表示,“在百度語(yǔ)言與知識(shí)技術(shù)的布局和發(fā)展中,我們始終在注意把握兩個(gè)趨勢(shì),即技術(shù)發(fā)展趨勢(shì)和產(chǎn)業(yè)發(fā)展趨勢(shì),并力爭(zhēng)引領(lǐng)趨勢(shì)?!?br/>

20200825171850232.jpg

  語(yǔ)言與知識(shí)技術(shù)是人工智能認(rèn)知能力的核心,以語(yǔ)言和知識(shí)為研究對(duì)象,讓機(jī)器像人一樣掌握知識(shí)、理解語(yǔ)言的自然語(yǔ)言處理技術(shù),對(duì)于人工智能發(fā)展至關(guān)重要。十年來,百度大腦語(yǔ)言與知識(shí)技術(shù)成果豐碩,獲得包括國(guó)家科技進(jìn)步獎(jiǎng)在內(nèi)的20多個(gè)獎(jiǎng)項(xiàng),30多項(xiàng)國(guó)際競(jìng)賽冠軍,發(fā)表學(xué)術(shù)論文超過300篇,申請(qǐng)專利2000多項(xiàng)。技術(shù)不斷突破創(chuàng)新的同時(shí),也在產(chǎn)品上創(chuàng)新探索,同時(shí)將領(lǐng)先的技術(shù)輸出給開發(fā)者與合作伙伴,提升各行業(yè)智能化水平。


  百度引領(lǐng)語(yǔ)言與知識(shí)技術(shù)創(chuàng)新,形成完整技術(shù)布局


  半個(gè)多世紀(jì)前,老一輩自然語(yǔ)言處理學(xué)者,在一本名為《機(jī)器翻譯淺說》的書中,暢想了未來跨語(yǔ)言、跨文化的無障礙溝通場(chǎng)景。如今,機(jī)器同傳、翻譯機(jī)、跨模態(tài)翻譯等工具,已融入人們的工作和生活,溝通無國(guó)界的夢(mèng)想正逐步實(shí)現(xiàn)。這一切是人工智能技術(shù),特別是語(yǔ)言與知識(shí)技術(shù)進(jìn)步所帶來的結(jié)果。


  歷經(jīng)近十年發(fā)展,百度已經(jīng)構(gòu)建了完整的語(yǔ)言與知識(shí)技術(shù)布局,包括知識(shí)圖譜、語(yǔ)言理解與生成技術(shù),以及上述技術(shù)所支持的包含智能搜索、機(jī)器翻譯、對(duì)話系統(tǒng)、智能寫作、深度問答等在內(nèi)的的應(yīng)用系統(tǒng)。

12.jpg

  其中,知識(shí)圖譜是機(jī)器認(rèn)知世界的基礎(chǔ)。機(jī)器認(rèn)知能力的突破,越來越依賴對(duì)知識(shí)和大規(guī)模知識(shí)圖譜的運(yùn)用。百度打造了世界上最大的多源異構(gòu)知識(shí)圖譜,擁有超過50億實(shí)體和5500億事實(shí),并在不斷演進(jìn)和更新,已應(yīng)用于各行各業(yè),每日調(diào)用次數(shù)超過400億次。

13.jpg

  不僅如此,針對(duì)不同應(yīng)用場(chǎng)景和知識(shí)形態(tài),百度還建立起多樣化的知識(shí)圖譜類型,既有基礎(chǔ)的實(shí)體知識(shí)圖譜,也有行業(yè)知識(shí)圖譜、事件圖譜、關(guān)注點(diǎn)圖譜等,以及融合語(yǔ)音、視頻、圖片的多模態(tài)知識(shí)圖譜。這背后,是百度創(chuàng)建的包括無標(biāo)簽大數(shù)據(jù)開放知識(shí)挖掘技術(shù)、知識(shí)體系自擴(kuò)展的知識(shí)圖譜自學(xué)習(xí)技術(shù)、以及融合多源異構(gòu)數(shù)據(jù)的知識(shí)補(bǔ)全與整合技術(shù)在內(nèi)一整套知識(shí)圖譜構(gòu)建方法。

14.jpg

  在知識(shí)的加持下,語(yǔ)言理解相關(guān)技術(shù)的能力不斷增強(qiáng),機(jī)器也可以逐漸像人一樣不斷學(xué)習(xí)、不斷進(jìn)步。百度提出知識(shí)增強(qiáng)的語(yǔ)義理解框架ERNIE,在深度學(xué)習(xí)的基礎(chǔ)上融入知識(shí),具備人類一樣的持續(xù)學(xué)習(xí)能力,曾一舉登頂全球權(quán)威數(shù)據(jù)集GLUE榜單,首次突破90分大關(guān),并且超越人類得分。而通過融入知識(shí)、語(yǔ)義理解、以及增強(qiáng)小樣本學(xué)習(xí)能力,機(jī)器的閱讀理解和對(duì)話能力也在迅速增強(qiáng)。


  當(dāng)然,和人類認(rèn)知世界的形式類似,機(jī)器認(rèn)知世界時(shí),也不僅是運(yùn)用自然語(yǔ)言,而往往是對(duì)語(yǔ)音、視覺、語(yǔ)音等多模態(tài)信息的綜合應(yīng)用。


  為此,百度研制了知識(shí)增強(qiáng)的跨模態(tài)深度語(yǔ)義理解方法,通過知識(shí)關(guān)聯(lián)跨模態(tài)信息,運(yùn)用語(yǔ)言描述不同模態(tài)信息的語(yǔ)義,進(jìn)而讓機(jī)器實(shí)現(xiàn)從“看清”到“看懂”、從“聽清”到“聽懂”,即圖像和語(yǔ)言、語(yǔ)音和語(yǔ)言的一體化理解。而融合場(chǎng)景圖知識(shí)的跨模態(tài)語(yǔ)義理解預(yù)訓(xùn)練技術(shù),則大幅提升了跨模態(tài)推理能力。

20200825172031259.jpg

  在機(jī)器理解自然語(yǔ)言之外,要與人進(jìn)行交互,語(yǔ)言生成的任務(wù)也必不可少。百度基于多流機(jī)制的語(yǔ)言生成預(yù)訓(xùn)練技術(shù),在語(yǔ)言生成的過程中,兼顧詞、短語(yǔ)等不同粒度的語(yǔ)義信息,提升了生成效果。而多文檔摘要生成,則通過圖結(jié)構(gòu)語(yǔ)義表示,引入篇章結(jié)構(gòu)知識(shí),增強(qiáng)長(zhǎng)文本語(yǔ)義表示能力的同時(shí),解決了跨文檔領(lǐng)域關(guān)系建模難題。結(jié)合語(yǔ)言生成技術(shù)和其他語(yǔ)言與知識(shí)技術(shù),百度打造了智能創(chuàng)作平臺(tái),已被20多家媒體所采用,日調(diào)用量超過35萬(wàn)次。


  領(lǐng)先技術(shù)持續(xù)落地應(yīng)用,提升智能化水平


  語(yǔ)言與知識(shí)技術(shù)的全面突破,在搜索、翻譯、對(duì)話系統(tǒng)等各類產(chǎn)品、應(yīng)用中得到突出體現(xiàn)。王海峰介紹,通過知識(shí)圖譜、語(yǔ)言理解和跨模態(tài)語(yǔ)義理解等技術(shù),智能搜索幫助用戶更加高效、精準(zhǔn)、便捷地獲取知識(shí)和信息。智能搜索再進(jìn)一步發(fā)展,搜索將無處不在。


  百度提出了知識(shí)圖譜驅(qū)動(dòng)的對(duì)話控制技術(shù),以及首個(gè)基于隱空間的大規(guī)模開放域?qū)υ捘P蚉LATO等,并推出智能對(duì)話定制和服務(wù)平臺(tái)UNIT,可幫助開發(fā)者高效構(gòu)建智能對(duì)話系統(tǒng),實(shí)現(xiàn)規(guī)?;瘧?yīng)用。百度翻譯支持200多種語(yǔ)言,每天響應(yīng)超過千億字符的翻譯請(qǐng)求,支持超過40多萬(wàn)家第三方應(yīng)用,技術(shù)上,提出了多智能體聯(lián)合學(xué)習(xí)、基于語(yǔ)義單元的同傳模型、稀缺語(yǔ)種分組混合訓(xùn)練算法等。

20200825172052232.jpg

  此外,百度語(yǔ)言與知識(shí)技術(shù)的成果,也在源源不斷通過開源開放平臺(tái)對(duì)外輸出,在互聯(lián)網(wǎng)、金融、醫(yī)療、教育等諸多領(lǐng)域發(fā)揮作用,提升產(chǎn)業(yè)智能化水平的同時(shí),也得到了各方認(rèn)可,這是近十年來百度語(yǔ)言與知識(shí)技術(shù)不斷進(jìn)步的最佳證明。


  演講最后,王海峰對(duì)語(yǔ)言與知識(shí)技術(shù)的進(jìn)一步發(fā)展做了展望。他表示,復(fù)雜知識(shí)表示和快速構(gòu)建技術(shù),知識(shí)與深度學(xué)習(xí)進(jìn)一步融合,深度融合感知和認(rèn)知的跨模態(tài)語(yǔ)義理解技術(shù),模型可解釋性和魯棒性等等,仍有很多技術(shù)難題需要持續(xù)研究和解決。但對(duì)于未來,百度充滿信心,愿始終堅(jiān)持探索機(jī)器“掌握知識(shí)、理解語(yǔ)言、擁有智能”,與學(xué)術(shù)界、產(chǎn)業(yè)界攜手,推動(dòng)語(yǔ)言與知識(shí)技術(shù)、人工智能技術(shù)持續(xù)進(jìn)步,為產(chǎn)業(yè)不斷升級(jí)、社會(huì)經(jīng)濟(jì)高質(zhì)量發(fā)展做出更大貢獻(xiàn)。


  轉(zhuǎn)自:財(cái)訊網(wǎng)

  【版權(quán)及免責(zé)聲明】凡本網(wǎng)所屬版權(quán)作品,轉(zhuǎn)載時(shí)須獲得授權(quán)并注明來源“中國(guó)產(chǎn)業(yè)經(jīng)濟(jì)信息網(wǎng)”,違者本網(wǎng)將保留追究其相關(guān)法律責(zé)任的權(quán)力。凡轉(zhuǎn)載文章及企業(yè)宣傳資訊,僅代表作者個(gè)人觀點(diǎn),不代表本網(wǎng)觀點(diǎn)和立場(chǎng)。版權(quán)事宜請(qǐng)聯(lián)系:010-65363056。

延伸閱讀

熱點(diǎn)視頻

村里來了服務(wù)隊(duì) ——記棗莊市鄉(xiāng)村振興服務(wù)二隊(duì) 村里來了服務(wù)隊(duì) ——記棗莊市鄉(xiāng)村振興服務(wù)二隊(duì)

熱點(diǎn)新聞

熱點(diǎn)輿情

特色小鎮(zhèn)

?

微信公眾號(hào)

版權(quán)所有:中國(guó)產(chǎn)業(yè)經(jīng)濟(jì)信息網(wǎng)京ICP備11041399號(hào)-2京公網(wǎng)安備11010502035964