�Ȥ��,��찮��ۺ��2021

首頁動態資訊行(xing)業資(zi)訊

淺談智能文檔處理技術與應用

來(lai)源(yuan)：易道博識(shi) 發布時間：2023-04-26

智能文檔處理介紹

智能(neng)文檔處理(li)（IDP）是利(li)用(yong)人工智能(neng)技(ji)術(shu)，自(zi)動從復雜的非(fei)結構(gou)(gou)化和(he)半結構(gou)(gou)化文檔中(zhong)抽取關鍵數據，并將其(qi)轉換(huan)成結構(gou)(gou)化數據的技(ji)術(shu)。IDP又稱為認知數據處理(li)（Cognitive Data Processing）或智能(neng)數據捕獲(huo)（Intelligent Data Capturing）技(ji)術(shu)。

眾所周(zhou)知，商(shang)業(ye)數(shu)(shu)據(ju)是企(qi)業(ye)數(shu)(shu)字化(hua)(hua)轉型的(de)核心。然而，現實(shi)中80%的(de)商(shang)業(ye)數(shu)(shu)據(ju)都(dou)是非(fei)結(jie)構化(hua)(hua)格式，比如郵件、圖片和(he)各(ge)種企(qi)業(ye)文檔，其中非(fei)結(jie)構化(hua)(hua)文檔占據(ju)了絕大多(duo)數(shu)(shu)。據(ju)統計，到2025年，全球企(qi)業(ye)數(shu)(shu)據(ju)總量(liang)將達到175ZB。借助于IDP技術，企(qi)業(ye)能(neng)(neng)夠(gou)實(shi)現文檔自動化(hua)(hua)處理(li)(li)(li)、文檔語義理(li)(li)(li)解、智(zhi)(zhi)能(neng)(neng)審核和(he)數(shu)(shu)據(ju)智(zhi)(zhi)能(neng)(neng)分析(xi)等(deng)方面的(de)功能(neng)(neng)，提升(sheng)企(qi)業(ye)用戶文檔處理(li)(li)(li)的(de)效率和(he)質量(liang)，為企(qi)業(ye)降(jiang)本增效。

智能文檔處理難點

從文檔的結構(gou)特(te)點上，我們可以將現實世界(jie)的文檔劃分為(wei)結構(gou)化、半(ban)結構(gou)化和非結構(gou)化三種類型。對(dui)應到版式(shi)(shi)(shi)特(te)征上，分別是固定版式(shi)(shi)(shi)、多版式(shi)(shi)(shi)和開(kai)放(fang)版式(shi)(shi)(shi)三種類型。

結(jie)構(gou)化(hua)文檔具(ju)有版(ban)式(shi)固定(ding)的特點(dian)，同(tong)一類型(xing)不同(tong)樣本(ben)之間沒(mei)有差異，如固定(ding)版(ban)式(shi)的信息采(cai)集(ji)表、申請文件等(deng)。半結(jie)構(gou)化(hua)文檔版(ban)式(shi)相對(dui)固定(ding)，或稱為多版(ban)式(shi)文檔，同(tong)一類型(xing)不同(tong)樣本(ben)之間關鍵內容(rong)相同(tong)，但是(shi)往往內容(rong)出現的位(wei)置卻不同(tong)，如不同(tong)供(gong)應(ying)(ying)商(shang)采(cai)購(gou)的送貨單(dan)，每個供(gong)應(ying)(ying)商(shang)都不同(tong)，但是(shi)其(qi)關鍵內容(rong)都包含訂單(dan)號(hao)、商(shang)品(pin)信息等(deng)。

非結構化(hua)文檔(dang)又稱為開放版(ban)式文檔(dang)，通常(chang)沒(mei)有顯著的版(ban)式特征，幾乎是純文本(ben)表達，雖然(ran)表達的內容相同，但是表達方式卻差(cha)異很大。常(chang)見的如(ru)合同、簡歷、招標文件等。

對于(yu)結構化和(he)半結構化文檔(dang)，由于(yu)版式(shi)(shi)相對固定，當前行業內普遍的(de)做(zuo)法是通過模板或深(shen)度(du)學習模型(xing)的(de)方法，完成分(fen)類(lei)和(he)信息抽(chou)取等自動化處理(li)，已經能夠解決大多(duo)(duo)數應用場(chang)景的(de)問題。但是，開(kai)放(fang)版式(shi)(shi)文檔(dang)，由于(yu)其天然(ran)的(de)諸多(duo)(duo)難(nan)點，給智能文檔(dang)處理(li)帶來了很大的(de)困難(nan)。如下表，是我們(men)歸納的(de)開(kai)放(fang)版式(shi)(shi)文檔(dang)處理(li)的(de)主要難(nan)點。

表1 開(kai)放版(ban)式文(wen)檔特點

智能文檔(dang)處理核(he)心技術

如表1，相比于(yu)純(chun)文本或固定(ding)和(he)多版式文檔(dang)，開放版式文檔(dang)處(chu)(chu)(chu)理(li)具(ju)有(you)諸多難點。因此，智能文檔(dang)處(chu)(chu)(chu)理(li)過程必須綜合應用計算機(ji)視覺(jue)（CV）、光學字符處(chu)(chu)(chu)理(li)（OCR）、文檔(dang)解析、自(zi)然語言處(chu)(chu)(chu)理(li)（NLP）和(he)文檔(dang)信(xin)息抽取等(deng)關鍵技術，才能更好地實現自(zi)動化(hua)和(he)智能化(hua)處(chu)(chu)(chu)理(li)。

計算機視覺（CV）技術

CV技術主要(yao)是對(dui)于文檔圖(tu)像進行各(ge)種圖(tu)像處理(li)，常見如圖(tu)像去噪聲、去干擾、圖(tu)像增強、圖(tu)像壓縮(suo)、圖(tu)像分割等(deng)。其處理(li)目(mu)的(de)主要(yao)是為后續OCR環節提供(gong)高質量的(de)圖(tu)像輸(shu)入，以提升OCR的(de)性(xing)能。同時，利用圖(tu)像檢(jian)測和分割等(deng)技術，可以實現文檔物理(li)版面(mian)解析。

光(guang)學字符處理(li)（OCR）技術(shu)

OCR是將紙質文(wen)檔、圖片等非(fei)數(shu)字(zi)化文(wen)件中的文(wen)字(zi)內(nei)容轉換(huan)為數(shu)字(zi)化格(ge)(ge)式的技術。當前主流實(shi)現(xian)上，借助表格(ge)(ge)識(shi)(shi)別(bie)、印章(zhang)識(shi)(shi)別(bie)、勾選(xuan)和二維碼識(shi)(shi)別(bie)等技術，在OCR環節可以實(shi)現(xian)圖像中所有通用(yong)對象(xiang)（文(wen)字(zi)、表格(ge)(ge)、印章(zhang)、勾選(xuan)、二維碼、簽名等）的統(tong)一識(shi)(shi)別(bie)和輸(shu)出(chu)，作為后(hou)續智能(neng)化文(wen)檔處理(li)環節的輸(shu)入。

文檔解(jie)析(xi)技術

文(wen)(wen)(wen)檔(dang)(dang)(dang)(dang)(dang)解(jie)(jie)析是在文(wen)(wen)(wen)檔(dang)(dang)(dang)(dang)(dang)協議解(jie)(jie)析或OCR處(chu)理(li)的(de)結果上(shang)，通過版面分析、表格解(jie)(jie)析等(deng)技術(shu)，實現文(wen)(wen)(wen)檔(dang)(dang)(dang)(dang)(dang)物理(li)和邏(luo)輯結構的(de)解(jie)(jie)析，得到文(wen)(wen)(wen)檔(dang)(dang)(dang)(dang)(dang)內容(rong)的(de)統一(yi)表示。以(yi)此作為進一(yi)步文(wen)(wen)(wen)檔(dang)(dang)(dang)(dang)(dang)分類、信息抽取(qu)和文(wen)(wen)(wen)檔(dang)(dang)(dang)(dang)(dang)比對(dui)等(deng)處(chu)理(li)的(de)輸(shu)入。IDP通常需要(yao)能夠(gou)支持所有格式(shi)的(de)文(wen)(wen)(wen)檔(dang)(dang)(dang)(dang)(dang)輸(shu)入，包括圖片、PDF、Word、OFD等(deng)，因此，文(wen)(wen)(wen)檔(dang)(dang)(dang)(dang)(dang)解(jie)(jie)析環節需要(yao)能夠(gou)解(jie)(jie)析以(yi)上(shang)各種格式(shi)的(de)輸(shu)入文(wen)(wen)(wen)件，將其轉(zhuan)換成(cheng)統一(yi)的(de)表示形式(shi)，如JSON文(wen)(wen)(wen)件。

自然語言處理(li)（NLP）

NLP是(shi)一種(zhong)利用(yong)計算機技(ji)(ji)術對自(zi)然語言進行分(fen)(fen)析和(he)處(chu)理的(de)(de)技(ji)(ji)術，常(chang)見的(de)(de)NLP任務包(bao)括(kuo)分(fen)(fen)詞(ci)、詞(ci)性標注、句法分(fen)(fen)析、語義分(fen)(fen)析、文(wen)(wen)本(ben)(ben)分(fen)(fen)類(lei)、信(xin)息抽取(qu)、文(wen)(wen)檔(dang)摘要(yao)(yao)、情(qing)感分(fen)(fen)析等(deng)(deng)。IDP中主要(yao)(yao)使用(yong)的(de)(de)NLP技(ji)(ji)術包(bao)括(kuo)文(wen)(wen)本(ben)(ben)分(fen)(fen)類(lei)、文(wen)(wen)本(ben)(ben)信(xin)息抽取(qu)、語義理解等(deng)(deng)。通(tong)常(chang)的(de)(de)做(zuo)法是(shi)將(jiang)OCR輸出或文(wen)(wen)檔(dang)協議解析后的(de)(de)所有文(wen)(wen)本(ben)(ben)塊(kuai)進行拼接，得到文(wen)(wen)本(ben)(ben)序列(lie)，再(zai)通(tong)過文(wen)(wen)本(ben)(ben)分(fen)(fen)類(lei)、信(xin)息抽取(qu)等(deng)(deng)技(ji)(ji)術，實現文(wen)(wen)檔(dang)的(de)(de)分(fen)(fen)類(lei)和(he)信(xin)息抽取(qu)。另外(wai)，通(tong)過NLP技(ji)(ji)術，也可以對文(wen)(wen)檔(dang)進行自(zi)動摘要(yao)(yao)、情(qing)感分(fen)(fen)析和(he)智能問答等(deng)(deng)處(chu)理。

文(wen)檔信息抽(chou)取

相比于純文本，文檔(dang)的最大特(te)(te)(te)點(dian)是其富格(ge)式特(te)(te)(te)點(dian)。因此，文檔(dang)中(zhong)信(xin)息(xi)抽取必須(xu)依賴于版面位置(zhi)等視覺特(te)(te)(te)征，比如從(cong)文檔(dang)中(zhong)的圖表或表格(ge)中(zhong)抽取信(xin)息(xi)，或者(zhe)從(cong)特(te)(te)(te)定版面位置(zhi)區域的結構(gou)化(hua)信(xin)息(xi)塊中(zhong)抽取信(xin)息(xi)。相比于簡單地從(cong)大段文本序列中(zhong)做信(xin)息(xi)抽取，文檔(dang)信(xin)息(xi)抽取技術(shu)難度更大。

智(zhi)能文檔處(chu)理(li)流程

如(ru)下圖，是智能文檔統一處(chu)理(li)流程。

圖1 智能(neng)文檔處理流程

主要包含以下環(huan)節：

文檔預處(chu)理

該步(bu)驟主(zhu)要針對Word、PDF等文檔(dang)協議(yi)進行(xing)解析處(chu)理(li)。

通(tong)過通(tong)用OCR識別(bie)模型，對(dui)輸入(ru)的文檔圖(tu)像(xiang)上的文字(zi)、印章、簽名、表格等通(tong)用要素(su)進行識別(bie)，得到(dao)文本和位(wei)置，以及表格結(jie)構化數據。

版面分(fen)析

利(li)用版面(mian)分析(xi)技術(shu)，定位出文檔圖像上所有(you)的標題(ti)、段落(luo)、表(biao)格、圖表(biao)、頁(ye)眉、頁(ye)腳(jiao)等版面(mian)信息。再利(li)用標題(ti)和段落(luo)等信息，做文檔邏輯結(jie)構分析(xi)，得到(dao)文檔結(jie)構。

信息(xi)抽取

基于版面和(he)目錄分析的結(jie)果，結(jie)合文檔協議解析或(huo)OCR的結(jie)果，利用自然語言處理等技術，進行(xing)文檔關(guan)鍵信息抽取。

信息校驗

利(li)用預設的規則，對抽取出的信(xin)息進(jin)行校驗，包括數(shu)據格(ge)式檢查、預設的審閱規則檢查等。

智(zhi)能文檔處理應用場景

主(zhu)要的智能文檔處理應用場(chang)景包(bao)括：

分類和(he)標簽化

通(tong)過智能(neng)文檔(dang)處(chu)理技術(shu)，可以對大(da)量文檔(dang)進行分類和標(biao)簽化，從而實現文檔(dang)的快速檢索、內(nei)容推薦和歸(gui)檔(dang)處(chu)理等(deng)功能(neng)。

信息抽取

智(zhi)(zhi)能(neng)(neng)文(wen)檔處理可以幫助從(cong)文(wen)檔中抽取關鍵信息，如(ru)關鍵的短(duan)語、實(shi)體、事(shi)件等。這些信息在知識圖譜(pu)構(gou)建、智(zhi)(zhi)能(neng)(neng)搜索、智(zhi)(zhi)能(neng)(neng)比對、智(zhi)(zhi)能(neng)(neng)問(wen)答等應用場景中具有重(zhong)要的價(jia)值。

摘要與(yu)生成

利用智能文(wen)檔(dang)處(chu)理技(ji)術，可(ke)(ke)以對文(wen)檔(dang)進行(xing)自動摘要，生(sheng)成簡潔(jie)、精煉的摘要內(nei)容。此外，還可(ke)(ke)以根據用戶輸入的關鍵詞或短語生(sheng)成特定主題的文(wen)章(zhang)，以滿足用戶需求。

問(wen)答(da)與對話

通過智能(neng)文(wen)檔處(chu)理技術，可以構建智能(neng)問答系統，為用戶提供及時準確的(de)文(wen)檔內容(rong)信息。

未(wei)來隨(sui)著大模型(xing)等人工(gong)智(zhi)能(neng)(neng)技術的不(bu)斷發展，智(zhi)能(neng)(neng)文(wen)檔(dang)處理將會在各個行業的應(ying)用場景中(zhong)不(bu)斷普及化。

賽博智能(neng)學習平臺智能(neng)文(wen)檔處理

賽(sai)博智(zhi)(zhi)能(neng)學習平(ping)臺(tai)定位于(yu)一體化(hua)(hua)機器學習訓(xun)練(lian)(lian)平(ping)臺(tai)，集(ji)成了對(dui)于(yu)結構化(hua)(hua)和非結構文(wen)檔的(de)智(zhi)(zhi)能(neng)化(hua)(hua)處理功能(neng)，包括智(zhi)(zhi)能(neng)文(wen)檔分類、文(wen)檔解析和文(wen)檔信息抽取等。能(neng)夠支持(chi)合同、法律(lv)文(wen)書(shu)、招(zhao)投標文(wen)件等各種開放版式長文(wen)檔的(de)智(zhi)(zhi)能(neng)化(hua)(hua)處理。基于(yu)平(ping)臺(tai)自定義模(mo)(mo)板(ban)和自訓(xun)練(lian)(lian)模(mo)(mo)型能(neng)力，通過現場模(mo)(mo)板(ban)定制、模(mo)(mo)型標注訓(xun)練(lian)(lian)的(de)方式，能(neng)夠形(xing)成即時可用的(de)文(wen)檔AI能(neng)力。

如下圖，是賽博智能學(xue)習平臺智能文檔處理(li)的基本流程。

圖2 賽博智能學習平臺(tai)智能文檔處理流程

未來，易道博識將繼續針對金融(rong)、能(neng)源、通信等行業(ye)客戶，在業(ye)務(wu)運營、審核和(he)監督管(guan)理、信息檢索和(he)風險管(guan)理等場景(jing)下，圍(wei)繞數(shu)字化、自動(dong)化和(he)智(zhi)能(neng)化需求，依托(tuo)賽博智(zhi)能(neng)學習平臺，為企業(ye)打造強(qiang)大AI底座，助力企業(ye)建設基(ji)于(yu)AI模型(xing)全(quan)生命周期的標準化、一體(ti)化生產運營體(ti)系。

賽博智(zhi)能學習平臺以私有化部署、現(xian)場訓練(lian)的(de)形(xing)式滿足客戶對數據安全要求，通(tong)過與(yu)業務系統(tong)深度融(rong)合，滿足各業務場景在圖像(xiang)處理、OCR、智(zhi)能文檔處理和NLP等方向需(xu)求。

賽博智能(neng)學習平臺持續(xu)將AI大模型等前沿技術與(yu)行業數據深度結合，在(zai)(zai)技術與(yu)業務場(chang)景(jing)之間搭橋鋪路(lu)，讓(rang)AI技術快速在(zai)(zai)場(chang)景(jing)中落地，在(zai)(zai)應用(yong)場(chang)景(jing)中產生價值，帶動產業發展(zhan)和升級。

上一篇：金融領域數智化轉型創新應用和實踐——賽博智能學習平臺

下一篇：易道博識榮獲第二屆光合組織AI解決方案大賽一等獎

返回列表

更多資訊

易(yi)道(dao)博識(shi)OCR智(zhi)能(neng)識(shi)別(bie)方(fang)案(an)，助(zhu)力金融業降本增效(xiao)

熱門標簽

人工智能 OCR識別證券 IT 計算機視覺訓練平臺銀行駕駛證識別財務識別保險

免费久久人人爽人人爽AV_亚洲s色大片在线观看_丰满人妻熟妇乱又伦精品_人妻在厨房被色诱中文字幕

搜索

淺談智能文檔處理技術與應用

國內統一咨詢服務熱線

（早09:00 - 晚18:00）

免费久久人人爽人人爽AV_亚洲s色大片在线观看_丰满人妻熟妇乱又伦精品_人妻在厨房被色诱 中文字幕

搜索

淺談智能文檔處理技術與應用

國內統一咨詢服務熱線

（早09:00 - 晚18:00）

免费久久人人爽人人爽AV_亚洲s色大片在线观看_丰满人妻熟妇乱又伦精品_人妻在厨房被色诱中文字幕