語義分析技術:知識工程平臺的基石


時間:2014-03-24





摘要:知識工程旨在面向企業(yè)業(yè)務應用需求,通過一系列以知識為對象的工程實踐達到海量信息中的知識挖掘、知識的高效組織應用。其中知識的表示,以及如何大規(guī)模地獲取知識是支撐其目標達成的關鍵技術,也是技術難點。而語義分析為知識的獲取和應用提供了一種有效的方法和手段。

從企業(yè)層面講,企業(yè)開展知識工程建設旨在面向企業(yè)業(yè)務應用需求,通過一系列以知識為對象的工程實踐達到海量信息中的知識挖掘、知識的高效組織應用。主要包括三大要素:知識獲取、知識組織表示和知識應用。想要獲取知識和實現知識的應用,首先要知道知識長什么樣,當前主要的知識表示形式為一個包含多種不同類型的結點和邊的知識圖以及圖結點之間的關系集合。那么如何獲得這個結點以及如何獲得這個邊(關系)就是知識獲取所要做的工作。

圖1知識圖示例

當前知識獲取主要有三種方式:非自動知識獲取、知識抽取、機器學習知識。非自動知識獲取常采用直接編輯知識、利用大眾智慧等手段,效率較低,無法應用于大規(guī)模的知識獲取;完全機器學習的難度較大;知識抽取是目前最有效的方式。

所謂知識抽取,指的是通過對文本資料進行內容分析處理,對蘊含于文本中的知識進行識別、理解和篩選,抽取出每個知識點,并以一定的形式存入知識庫中。那么如何通過對文本資料進行內容分析從而達到識別并抽取出知識的目的呢?語義分析就是有效的手段和方法。

語義,又稱語意,指的是話語所包含的意義,在計算機科學領域,可以稱之為數據對應現實世界中事物所代表概念的含義。簡單來說,語義分析的根本目的是為了讓計算機理解自然語言,一旦計算機擁有了這種能力,就可以從文本信息中識別并抽取出知識。

對于特定領域來說,完全句法分析和深入的語義理解一方面在技術上還達不到,而且也是沒有必要的。只要從輸入的文本中抽取關注的信息,填寫在預定義好的模板的屬性槽中,即可完成特定領域文本的知識抽取的第一步。

如這段文字:2005年11月1日,周杰倫發(fā)行了第六張國語專輯《十一月的蕭邦》,包含了《夜曲》、《發(fā)如雪》等十二首動聽的歌,大家可以在專輯當中,嗅出他潛藏的浪漫古典因子。

圖2主體與事件抽取示例

圖2就是典型的通過主體和事件將這段文字轉化為一張圖的例子,其中主體是指某種具體事物的個體或集合體,事件是指與主體所施行的或主體被施加的動作、過程等等。如前所說,這只是知識抽取的第一步,如果只停留在這個層面,我們只能稱之為信息抽取,而非知識抽取。將N篇這樣的文章進行信息抽取處理,然后建立它們之間的關聯,形成一個網絡。以新聞為例,經過抽取和管理,我們可以看到某個地點發(fā)生的各類新聞,發(fā)現在某個人物身上的各類新聞,甚至于可以抽取到兩個新聞之間內在的關聯(比如這兩個新聞所述對象是某某關系)等等,而這些可以稱之為關聯類的知識。

目前,這種基于語義的半自動抽取技術在特定產業(yè)領域商業(yè)化、工程化應用較少,這是因為如果想獲得高質量的語言分析結構,就需要構建面向特定領域的成熟語料。

北京億維訊科技有限公司依托基于語義的知識抽取技術及其知識工程平臺在石化等特定領域的應用,是目前為數不多的領域化應用。億維訊將“業(yè)務對象”和“業(yè)務主題”作為文本中的抽取點,編寫該產業(yè)領域不同知識類型的知識模板框架,在文本分析挖掘時首先進行知識類別識別,根據類別調用相應的框架。圖3為從億維訊知識工程軟件界面中截取的方法類知識模板,其中摘要是半自動提取,關鍵詞、分類、業(yè)務主題、知識來源、提供者等為自動提取。據了解,目前億維訊正在設計更加細化、具有針對性的可配置摘要,即形成摘要的模板框架。

通過將知識模板中知識的相關屬性進行關聯,則可以構建關于某一特定業(yè)務主題或其它屬性的知識網絡。

圖3知識模板示例

將語義分析落實到大量的具體的篇章文本上,形成熟語料庫,其中包括詞匯級別的義素、語義特征的標注、實體標注,句子級別的語義角色標注,還有語法句法范圍的詞性標注、句法功能標注等等。我們可以想象,當大量文章(一般來說至少100萬字的量級)進行了這樣的標注后,我們需要什么知識,就可以從中抽取出一些信息后進行加工和關聯而得到。在未來,或者說已經有人在做,當標注好的熟語料已經達到一定量級,我們甚至可以通過機器學習的方式對其他未標注的文章進行自動標注,那么也就實現了自然語言計算機自動處理的最終目標,也就解決了知識自動獲取的難題。

不僅如此,基于語義的知識獲取與表示因為使知識具有了良好定義的語法和語義,所以有充分的表達能力,能清晰的表達有關領域的各種知識;便于有效的檢索和共享;容易管理,易于維護知識庫的完整性和一致性。而這些正是知識工程的應有之義。因此,我們說,語義分析是知識工程建設中非常關鍵的支撐技術,是知識工程平臺的基石。

來源:TOM網



  版權及免責聲明:凡本網所屬版權作品,轉載時須獲得授權并注明來源“中國產業(yè)經濟信息網”,違者本網將保留追究其相關法律責任的權力。凡轉載文章,不代表本網觀點和立場。版權事宜請聯系:010-65363056。

延伸閱讀

熱點視頻

第六屆中國報業(yè)黨建工作座談會(1) 第六屆中國報業(yè)黨建工作座談會(1)

熱點新聞

熱點輿情

特色小鎮(zhèn)

版權所有:中國產業(yè)經濟信息網京ICP備11041399號-2京公網安備11010502003583