構建高質量數(shù)據(jù)集 推動人工智能快速發(fā)展


來源:中國產業(yè)經(jīng)濟信息網(wǎng)   時間:2019-03-11





  現(xiàn)階段,缺乏高質量的數(shù)據(jù)集已經(jīng)成為制約人工智能領域發(fā)展的瓶頸之一,如何構建人工智能數(shù)據(jù)集已成為各國政府和產業(yè)界關注的焦點。


  美國提出支持構建高質量人工智能數(shù)據(jù)集,并將構建行業(yè)資源數(shù)據(jù)集定位為產業(yè)界不可能解決需政府層面推動的難題。2016年10月,美國先后發(fā)布《美國國家人工智能研究和發(fā)展戰(zhàn)略計劃》和《為未來人工智能做好準備》,確定構建人工智能數(shù)據(jù)集為聯(lián)邦政府人工智能戰(zhàn)略重大計劃之一。英國認為人工智能行業(yè)數(shù)據(jù)集的匱乏已嚴重阻礙人工智能的發(fā)展,將提高數(shù)據(jù)獲取性和行業(yè)數(shù)據(jù)訪問的便利性列為未來提升英國人工智能能力的首要任務。


  我國將缺少有效的訓練資源庫列為影響人工智能發(fā)展的痛點問題之一,提出支持建設包括公共數(shù)據(jù)資源庫、標準測試數(shù)據(jù)集、云服務平臺等在內的人工智能基礎數(shù)據(jù)平臺。2017年12月,工信部發(fā)布《促進新一代人工智能產業(yè)發(fā)展三年行動計劃》,提出支持建設面向語音識別、視覺識別、自然語言處理等基礎領域,以及工業(yè)、醫(yī)療、金融、交通等行業(yè)領域的高質量人工智能訓練資源庫和標準測試數(shù)據(jù)集并推動共享。2018年11月工信部發(fā)布《新一代人工智能產業(yè)創(chuàng)新發(fā)展重點任務揭榜工作方案》,促進《行動計劃》進一步落實。


  人工智能數(shù)據(jù)集采集策略


  目前,人工智能領域相關科技企業(yè)在數(shù)據(jù)集的獲取方面已經(jīng)形成了多種策略,由于商業(yè)模式、公司的關注點以及融資情況的不同,人工智能領域大型企業(yè)和初創(chuàng)企業(yè)采用的采集策略也有所差異。大型的人工智能領域科技企業(yè)關注點主要在數(shù)據(jù)的質量、價值和獲取難度上。目前大型企業(yè)的數(shù)據(jù)獲取策略主要有以下幾種:


  一是數(shù)據(jù)并購。資金雄厚的企業(yè)可以通過并購獲取數(shù)據(jù)。例如IBM在2016年斥資26億美元收購了Truven健康公司。這筆交易為IBM在電子病歷、遺傳學和影像資料方面帶來了2億個項目數(shù)據(jù)。


  二是產業(yè)數(shù)據(jù)協(xié)同。依靠企業(yè)的行業(yè)影響力,與產業(yè)鏈下游創(chuàng)業(yè)公司/行業(yè)公司或產業(yè)鏈上游的數(shù)據(jù)/平臺型公司建立合作,以此獲取所需數(shù)據(jù)資源。如IBM Watson先后與美國藥品連鎖商店CVS、安德森癌癥中心、紀念斯隆-凱特林癌癥研究中心、泰國康民國際醫(yī)院等機構合作,進而獲得醫(yī)療領域人工智能訓練數(shù)據(jù)資源。


  三是自籌數(shù)據(jù)。通過投入大量人力進行數(shù)據(jù)采集。如當前很多聊天機器人公司聘請AI教練團隊對聊天應用程序進行性能評估和指導培訓,所需人力隨用戶數(shù)量同步增加,直至引發(fā)數(shù)據(jù)網(wǎng)絡效應,形成“更多用戶-更多數(shù)據(jù)-更優(yōu)智能算法-更好產品-更多用戶”的正循環(huán)。此外,也可采取投入大量資金,向消費者提供特定領域免費應用的策略快速積累數(shù)據(jù),如Madits、Clarifai等圖像識別公司均推出了免費的照片應用程序,以便為圖像識別核心業(yè)務積累更多圖像數(shù)據(jù)。


  四是創(chuàng)意產品撬動數(shù)據(jù)。通過創(chuàng)意產品吸引用戶,在娛樂之余提供數(shù)據(jù)是獲取人工智能數(shù)據(jù)集的一種創(chuàng)新手段。例如2016年11月,谷歌發(fā)布了名為“Quick, Draw!”(猜畫小歌)的在線涂鴉App,該App要求用戶根據(jù)文本提示繪制簡單對象,由AI猜測所畫內容。所采集數(shù)據(jù)不僅促進了該App自身AI的演進,還用來訓練了2017年4月發(fā)布的素描AI機器人RNN。


  五是開源測試環(huán)境或平臺換取數(shù)據(jù)。此策略適用于科技巨頭或行業(yè)巨頭,科技巨頭或行業(yè)巨頭通過開源測試環(huán)境和訓練、測試數(shù)據(jù)集,旨在提高AI開發(fā)者的用戶黏性,并以此獲取數(shù)據(jù)以及其他資源。


  還有其他策略,如通過大賽機制完善數(shù)據(jù)集或利用虛擬環(huán)境產生數(shù)據(jù);一些人工智能領域競賽要求協(xié)辦方提供數(shù)據(jù)資源,促進數(shù)據(jù)共享。此外,利用虛擬環(huán)境也可產生數(shù)據(jù)資源。如斯坦福大學在訓練遠程遙控深海作業(yè)機器人OceanOne時,使用了很多由模擬場景(虛擬環(huán)境)產生的大量訓練數(shù)據(jù)。


  對于初創(chuàng)企業(yè),影響數(shù)據(jù)獲取的關鍵因素是成本,目前初創(chuàng)企業(yè)獲取數(shù)據(jù)的主要策略有以下幾種:


  一是使用政府主導的公共數(shù)據(jù)。政府主導的公共數(shù)據(jù)集成為人工智能行業(yè)資源訓練庫的重要來源。美國聯(lián)邦政府Data.gov數(shù)據(jù)平臺已開放包括十余個領域的13萬個數(shù)據(jù)集;英國、加拿大、新西蘭等國自2009年前后開始建立政府數(shù)據(jù)公共平臺;我國上海、北京、武漢、無錫、佛山等城市自2012年開始陸續(xù)推出數(shù)據(jù)平臺。


  二是購買商業(yè)數(shù)據(jù)集。數(shù)據(jù)資源的商業(yè)價值已得到普遍共識,商業(yè)數(shù)據(jù)集提供商使用最新的搜索算法收集、清洗和更新數(shù)據(jù)集,且開始出售其商業(yè)數(shù)據(jù)資源。商業(yè)數(shù)據(jù)集對于需要快速得到數(shù)據(jù)且沒有內部資源來清洗和歸類數(shù)據(jù)的人工智能初創(chuàng)企業(yè)來說是非常有益的,如道瓊斯和Xignite已開始提供基于云平臺的數(shù)據(jù)訪問服務。


  三是眾包市場。眾包模式已成為代替人工智能科技企業(yè)收集數(shù)據(jù)的主要手段。如通過國外的亞馬遜Mechanical Turk,國內的百度數(shù)據(jù)開放平臺等數(shù)據(jù)眾包平臺可以找到承包商做數(shù)據(jù)收集工作,減少了企業(yè)雇傭數(shù)據(jù)專家的相關成本。


  從發(fā)展趨勢來看,未來數(shù)據(jù)并購和眾包市場將逐漸成為主要的數(shù)據(jù)獲取策略。相較于其他數(shù)據(jù)獲取策略,這兩種方式能夠較為便捷地獲取數(shù)據(jù)并形成質量較高的數(shù)據(jù)集。據(jù)CBInsights的數(shù)據(jù)顯示,人工智能領域中關于數(shù)據(jù)的并購現(xiàn)象將越來越明顯。而對于初創(chuàng)企業(yè),由于沒有足夠的資金,所以這類企業(yè)已將眾包市場作為主要的數(shù)據(jù)來源;同時,一些大型互聯(lián)網(wǎng)企業(yè)也將建設數(shù)據(jù)眾包平臺作為發(fā)展人工智能的戰(zhàn)略布局之一。


  眾包模式成為人工智能數(shù)據(jù)標注的基本手段


  采集獲取的元數(shù)據(jù)需要通過進一步的標注才能對目前大部分的人工智能算法進行訓練,而對海量元數(shù)據(jù)的處理需要大量的時間成本和人力成本。


  數(shù)據(jù)標注通常有人工標注和智能/人工結合標注兩種方式。人工標注是借助一定可視化工具對數(shù)據(jù)進行純人工標注,由于元數(shù)據(jù)的數(shù)據(jù)量極大,通常采用人工方式進行數(shù)據(jù)標注的工作量非常大。在處理具有一定規(guī)律的數(shù)據(jù)時,可以采用智能/人工結合的方式,并通過智能/人工的多級迭代保證輸出數(shù)據(jù)的質量。以百度高精地圖為例,其數(shù)據(jù)智能處理程度已達到90%,能自動識別交通標志、地面標志、車道線、信號燈等上百種目標。但是無論采用人工標注還是智能/人工結合標注,工作量仍然是非常大的,僅靠人工智能企業(yè)的自身力量難以完成,通常需要進行數(shù)據(jù)標注任務的再分配。


  目前,數(shù)據(jù)標注再分配的主流方式為眾包模式。在沒有第三方眾包平臺之前,人工智能科技企業(yè)一般自行招募數(shù)據(jù)標注員進行數(shù)據(jù)處理,數(shù)據(jù)標注和質量控制的成本極高且效率低下。人工智能數(shù)據(jù)標注的外包市場于2015年真正開始,2016年下半年出現(xiàn)收縮,2017年又有了新一輪的爆發(fā),目前已形成相對完整的眾包產業(yè)生態(tài)。比較著名的Google Open Image Datasets、Youtube-8M、ImageNet數(shù)據(jù)集等均通過眾包平臺完成。


  眾包模式主要有“眾包”和“工廠”兩種類型。“眾包”是把任務通過平臺轉接分包給網(wǎng)民,如百度眾包、京東眾智、龍貓數(shù)據(jù)等平臺主要采用這種方式,適用于不敏感數(shù)據(jù)。“工廠”則是平臺自己經(jīng)營團隊,對整個流程進行控制,適用于企業(yè)敏感數(shù)據(jù),如貴陽夢動科技經(jīng)營了一個500人的“數(shù)據(jù)工廠”,在大型團隊之外,還活躍著眾多三五人到十幾人規(guī)模不等的數(shù)據(jù)標注“小作坊”。


  眾包模式的選擇需平衡任務費用、質量和時間三者的關系。任務費用、質量和時間三者之間的平衡與具體的眾包任務性質密切相關。美國微軟雷德蒙研究院在數(shù)據(jù)任務花費與質量的平衡之間設計了基于馬爾科夫決策理論的數(shù)學模型(其內部稱之為知識梯度的有效算法),以此確定哪類數(shù)據(jù)需要標注和雇傭誰進行數(shù)據(jù)標注,進而解決任務花費與質量之間的關系。一般來說,質量是最重要的指標,即如果沒有質量,較低的費用與較少的時間都會失去意義。


  構建人工智能數(shù)據(jù)集存在的問題和策略建議


  當前在人工智能數(shù)據(jù)集的獲取和標注方面仍存在四個方面的問題。一是在元數(shù)據(jù)獲取層面,企業(yè)出于自身利益考慮,難以實現(xiàn)真正的數(shù)據(jù)共享,而且某些特殊領域的數(shù)據(jù)獲取和使用是否合規(guī)合法存在很大的爭議。二是數(shù)據(jù)標注行業(yè)仍是被具體政策支撐忽視的死角,人工智能相關政策和社會關注點主要集中在算法、應用、芯片方面,針對數(shù)據(jù)標注和眾包市場的政策支撐和社會關注較少。三是第三方眾包平臺市場仍處于發(fā)展初期的野蠻生長狀態(tài),缺乏相關行業(yè)管理規(guī)范和行業(yè)自律精神,有可能會發(fā)生一些損害客戶利益的情況,如對眾包數(shù)據(jù)進行二次轉售等。四是目前大型企業(yè)對自有數(shù)據(jù)的保護意識越來越強,但是目前眾包平臺主要由人工智能科技企業(yè)建設,不存在與其他眾多人工智能科技企業(yè)完全沒有利害關系的第三方眾包平臺。


  針對構建人工智能數(shù)據(jù)集存在的問題,特提出策略建議。一是進一步加強頂層規(guī)劃設計和體系化布局,完善配套措施,加快相關政策落地,通過政策手段促進人工智能數(shù)據(jù)在企業(yè)間的共享和合理化使用。同時加強數(shù)據(jù)標注和眾包市場的政策支撐,提高社會關注度。二是推動人工智能數(shù)據(jù)領域相關管理規(guī)范的制定和落實,加強行業(yè)自律精神建設,建立投訴機制,保障企業(yè)數(shù)據(jù)安全。三是建議在國家層面統(tǒng)籌人工智能行業(yè)資源數(shù)據(jù)集建設,探索以政府數(shù)據(jù)開放為牽引、龍頭數(shù)據(jù)為基礎、行業(yè)數(shù)據(jù)合作驅動,由無利益關系的第三方維護數(shù)據(jù)集并建設數(shù)據(jù)眾包平臺。(王堯 王文躍 劉泰)


  轉自:人民郵電報


  版權及免責聲明:凡本網(wǎng)所屬版權作品,轉載時須獲得授權并注明來源“中國產業(yè)經(jīng)濟信息網(wǎng)”,違者本網(wǎng)將保留追究其相關法律責任的權力。凡轉載文章,不代表本網(wǎng)觀點和立場。版權事宜請聯(lián)系:010-65363056。

延伸閱讀

  • 中國人工智能產業(yè)創(chuàng)新聯(lián)盟成立

    中國電子信息產業(yè)發(fā)展研究院聯(lián)合近200家機構的中國人工智能產業(yè)創(chuàng)新聯(lián)盟,21日在北京成立。聯(lián)盟成立后,將首先完成四大工作任務:一是建立中國人工智能開放創(chuàng)新平臺;二是組建中國人工智能創(chuàng)新發(fā)展基金;三是舉辦中國人工智能...
    2017-06-22
  • 讓人工智能成為創(chuàng)投的助力

    除了被稱為 "人類智慧最后堡壘 "的圍棋之外,在很多領域,人工智能都已經(jīng)開始逐步替代人類,而依據(jù)星河互聯(lián)CEO傅淼的觀點,人工智能還將把自己的觸手伸向更多領域。
    2017-07-17
  • 我國落實人工智能“三步走”戰(zhàn)略

    到2020年,人工智能總體技術和應用與世界先進水平同步,人工智能產業(yè)成為新的重要經(jīng)濟增長點,人工智能技術應用成為改善民生的新途徑,有力支撐進入創(chuàng)新型國家行列和實現(xiàn)全面建成小康社會的奮斗目標。
    2017-07-26
  • 人工智能是工業(yè)革命的尾聲, 還是一場新革命的序幕?

    人工智能的各種進展每天都在刷屏。有人認為,戲劇化的技術革命即將到來,人們的生活方式將極大地改變,生活水平也將進一步提升。其實從技術上來說,“人工智能”只是發(fā)展了幾十年的信息技術的一種延續(xù),更“巧妙”的算法、更快...
    2017-08-07

熱點視頻

鄉(xiāng)村振興·跟著總書記 一步一個腳印往前走 鄉(xiāng)村振興·跟著總書記 一步一個腳印往前走

熱點新聞

熱點輿情

特色小鎮(zhèn)

?

版權所有:中國產業(yè)經(jīng)濟信息網(wǎng)京ICP備11041399號-2京公網(wǎng)安備11010502035964