解決文檔應(yīng)用開發(fā)“水土不服”問題,合合信息智能文檔處理“百寶箱”亮相1024程序員節(jié)


中國(guó)產(chǎn)業(yè)經(jīng)濟(jì)信息網(wǎng)   時(shí)間:2024-10-29





  文檔是知識(shí)傳遞的載體,無(wú)論是大模型應(yīng)用發(fā)展,還是與產(chǎn)業(yè)數(shù)字化息息相關(guān)的高質(zhì)量數(shù)據(jù)庫(kù)的建立,都離不開對(duì)于文檔數(shù)據(jù)的處理和分析。目前,越來(lái)越多的開發(fā)者開始關(guān)注文檔數(shù)據(jù)處理背后的“文檔解析”技術(shù),用以實(shí)現(xiàn)自動(dòng)化數(shù)據(jù)提取、優(yōu)化大模型訓(xùn)練、開發(fā)智能文檔處理應(yīng)用。

  近期,第五屆長(zhǎng)沙·中國(guó)1024程序員節(jié)在湖南長(zhǎng)沙舉行。大會(huì)由湖南省工業(yè)和信息化廳、湖南湘江新區(qū)管理委員會(huì)、長(zhǎng)沙市工業(yè)和信息化局、長(zhǎng)沙信息產(chǎn)業(yè)園管委會(huì)和 CSDN 聯(lián)合打造。大會(huì)期間,合合信息面向廣大開發(fā)者,開放智能文檔處理“百寶箱”系列產(chǎn)品(簡(jiǎn)稱“百寶箱”)免費(fèi)體驗(yàn)。“百寶箱”覆蓋文檔處理流程多節(jié)點(diǎn),支持批量、高效、準(zhǔn)確解析多種版式的文檔材料,解決文檔解析精度低、解析效果評(píng)估難和大模型幻覺等問題,助力技術(shù)人員實(shí)現(xiàn)個(gè)性化、高效率的文檔類應(yīng)用開發(fā)工作。

  “百寶箱”為文檔應(yīng)用開發(fā)提供個(gè)性化工具

  文檔處理包含解析界面可視化、提取關(guān)鍵信息、解析效果測(cè)評(píng)等多個(gè)流程,每一節(jié)點(diǎn)都影響著數(shù)據(jù)解析的精度。在長(zhǎng)沙·中國(guó)1024程序員節(jié)《模型與工具》論壇上,合合信息智能創(chuàng)新事業(yè)部研發(fā)總監(jiān)常揚(yáng)介紹了智能文檔處理“百寶箱”三大產(chǎn)品,用維護(hù)穩(wěn)定、持續(xù)更新、可用性強(qiáng)的AI工具幫助開發(fā)者解決難題。

圖說(shuō) 長(zhǎng)沙·中國(guó)1024程序員節(jié)《模型與工具》論壇現(xiàn)場(chǎng)

  據(jù)常揚(yáng)介紹,對(duì)于廣大技術(shù)人員而言,一款能夠“開箱即用”的工具能夠讓開發(fā)事半功倍。為解決個(gè)人及中小型企業(yè)技術(shù)人員在開發(fā)過(guò)程中遇到的“水土不服”問題,合合信息發(fā)布了一組文檔解析界面前端可視化組件,開發(fā)者可使用相關(guān)界面對(duì)解析效果進(jìn)行交互,包括提取各類解析元素,定位解析元素在文檔中的位置,還原展示各級(jí)目錄樹等。此外,相關(guān)組件還支持對(duì)結(jié)果進(jìn)行編輯修正,方便使用者實(shí)現(xiàn)更高精度的解析效果,進(jìn)行個(gè)性化開發(fā)。

圖說(shuō) 文檔解析可視化前端界面

  在文檔處理及大模型RAG應(yīng)用時(shí),文本向量模型對(duì)于檢索質(zhì)量和效率至關(guān)重要?!鞍賹毾洹遍_源了合合信息自研的文本向量模型代碼——acge模型,曾于2024年3月榮登C-MTEB榜單第一名,支持長(zhǎng)文檔嵌入檢索,兼顧效率和性能,有效提升大模型RAG應(yīng)用效果。目前在開源機(jī)器學(xué)習(xí)社區(qū)和模型庫(kù)Hugging Face平臺(tái)上,acge模型單月下載量達(dá)30,423,助力越來(lái)越多的開發(fā)者優(yōu)化大模型性能。

  本次大會(huì)上,“百寶箱”還為文檔解析工具的篩選配備了“游標(biāo)卡尺”。當(dāng)前市面上的文檔解析產(chǎn)品效果缺乏統(tǒng)一標(biāo)準(zhǔn),為選擇一款合適的工具,開發(fā)者們要花費(fèi)較長(zhǎng)的時(shí)間進(jìn)行對(duì)比測(cè)試。“百寶箱”中的“文檔解析測(cè)評(píng)工具”從表格、段落、標(biāo)題、閱讀順序、公式等多維度,為文檔解析工具篩選提供定量測(cè)評(píng)依據(jù)及服務(wù),并提供雷達(dá)圖等可視化形式,方便開發(fā)者直觀地看到文本識(shí)別、解析和翻譯的結(jié)果,節(jié)省篩選時(shí)間。

圖說(shuō) 表格數(shù)據(jù)解析效果測(cè)評(píng)指標(biāo)

  文檔智能解析為專業(yè)知識(shí)庫(kù)建設(shè)“打好地基”

  技術(shù)只有和具體業(yè)務(wù)實(shí)踐相結(jié)合才能創(chuàng)造價(jià)值,在大會(huì)上,常揚(yáng)分享了“智能文檔處理百寶箱”在知識(shí)庫(kù)搭建、智能文檔抽取、大模型預(yù)訓(xùn)練語(yǔ)料與數(shù)據(jù)治理快速入庫(kù)以及文檔翻譯場(chǎng)景中的深度應(yīng)用。

  以工程制造業(yè)為例,知識(shí)庫(kù)的建立需要對(duì)產(chǎn)品設(shè)計(jì)方案、技術(shù)規(guī)格書、工藝流程圖、國(guó)家標(biāo)準(zhǔn)文件等在內(nèi)的多版式文檔進(jìn)行分析,數(shù)據(jù)處理難度高。借助“百寶箱”及合合信息智能文檔處理技術(shù),開發(fā)者可以篩選出合適的文檔解析工具并實(shí)現(xiàn)對(duì)復(fù)雜文檔信息的精準(zhǔn)提取。面對(duì)數(shù)據(jù)來(lái)源不一致、數(shù)據(jù)更新不及時(shí)等問題,開發(fā)者還可以使用acge模型優(yōu)化知識(shí)庫(kù)信息構(gòu)建、檢索和查詢效果。

  除了中文文檔,包括生物醫(yī)藥、金融、外貿(mào)等行業(yè)在內(nèi)的專項(xiàng)知識(shí)庫(kù)還存在解析、翻譯多語(yǔ)種文檔的需求。不同語(yǔ)種之間不僅字體字形之間存在巨大差異,復(fù)雜語(yǔ)句切分也是一大難題。據(jù)悉,“百寶箱”可在保留文檔原有格式的基礎(chǔ)上做到批量、精確區(qū)分并提取多語(yǔ)種信息,前端組件提供審校修正功能,用戶可直接在界面上對(duì)解析結(jié)果進(jìn)行優(yōu)化,助力提高翻譯質(zhì)量。未來(lái),合合信息智能文檔處理“百寶箱”將始終追求更高的效率與準(zhǔn)確率,從文檔解析到效果測(cè)評(píng),為知識(shí)庫(kù)產(chǎn)品開發(fā)提供有力支持。

圖說(shuō) “百寶箱”在文檔翻譯場(chǎng)景中的應(yīng)用


  轉(zhuǎn)自:中國(guó)網(wǎng)

  【版權(quán)及免責(zé)聲明】凡本網(wǎng)所屬版權(quán)作品,轉(zhuǎn)載時(shí)須獲得授權(quán)并注明來(lái)源“中國(guó)產(chǎn)業(yè)經(jīng)濟(jì)信息網(wǎng)”,違者本網(wǎng)將保留追究其相關(guān)法律責(zé)任的權(quán)力。凡轉(zhuǎn)載文章及企業(yè)宣傳資訊,僅代表作者個(gè)人觀點(diǎn),不代表本網(wǎng)觀點(diǎn)和立場(chǎng)。版權(quán)事宜請(qǐng)聯(lián)系:010-65363056。

延伸閱讀

熱點(diǎn)視頻

上半年汽車工業(yè)多項(xiàng)經(jīng)濟(jì)指標(biāo)創(chuàng)新高 上半年汽車工業(yè)多項(xiàng)經(jīng)濟(jì)指標(biāo)創(chuàng)新高

熱點(diǎn)新聞

熱點(diǎn)輿情

?

版權(quán)所有:中國(guó)產(chǎn)業(yè)經(jīng)濟(jì)信息網(wǎng)京ICP備11041399號(hào)-2京公網(wǎng)安備11010502035964