免费久久人人爽人人爽AV_亚洲s色大片在线观看_丰满人妻熟妇乱又伦精品_人妻在厨房被色诱 中文字幕

首頁
核心技術
產品體系
解決方案
動態資訊
關于我們
搜索
首頁 動態資訊 行(xing)業資(zi)訊

淺談智能文檔處理技術與應用

來(lai)源(yuan):易道博識(shi) 發布時間:2023-04-26
智能文檔處理介紹
智能(neng)文檔處理(li)(IDP)是利(li)用(yong)人工智能(neng)技(ji)術(shu),自(zi)動從復雜的非(fei)結構(gou)(gou)化和(he)半結構(gou)(gou)化文檔中(zhong)抽取關鍵數據,并將其(qi)轉換(huan)成結構(gou)(gou)化數據的技(ji)術(shu)。IDP又稱為認知數據處理(li)(Cognitive Data Processing)或智能(neng)數據捕獲(huo)(Intelligent Data Capturing)技(ji)術(shu)。
眾所周(zhou)知,商(shang)業(ye)數(shu)(shu)據(ju)是企(qi)業(ye)數(shu)(shu)字化(hua)(hua)轉型的(de)核心。然而,現實(shi)中80%的(de)商(shang)業(ye)數(shu)(shu)據(ju)都(dou)是非(fei)結(jie)構化(hua)(hua)格式,比如郵件、圖片和(he)各(ge)種企(qi)業(ye)文檔,其中非(fei)結(jie)構化(hua)(hua)文檔占據(ju)了絕大多(duo)數(shu)(shu)。據(ju)統計,到2025年,全球企(qi)業(ye)數(shu)(shu)據(ju)總量(liang)將達到175ZB。借助于IDP技術,企(qi)業(ye)能(neng)(neng)夠(gou)實(shi)現文檔自動化(hua)(hua)處理(li)(li)(li)、文檔語義理(li)(li)(li)解、智(zhi)(zhi)能(neng)(neng)審核和(he)數(shu)(shu)據(ju)智(zhi)(zhi)能(neng)(neng)分析(xi)等(deng)方面的(de)功能(neng)(neng),提升(sheng)企(qi)業(ye)用戶文檔處理(li)(li)(li)的(de)效率和(he)質量(liang),為企(qi)業(ye)降(jiang)本增效。
智能文檔處理難點
從文檔的結構(gou)特(te)點上,我們可以將現實世界(jie)的文檔劃分為(wei)結構(gou)化、半(ban)結構(gou)化和非結構(gou)化三種類型。對(dui)應到版式(shi)(shi)(shi)特(te)征上,分別是固定版式(shi)(shi)(shi)、多版式(shi)(shi)(shi)和開(kai)放(fang)版式(shi)(shi)(shi)三種類型。
結(jie)構(gou)化(hua)文檔具(ju)有版(ban)式(shi)固定(ding)的特點(dian),同(tong)一類型(xing)不同(tong)樣本(ben)之間沒(mei)有差異,如固定(ding)版(ban)式(shi)的信息采(cai)集(ji)表、申請文件等(deng)。半結(jie)構(gou)化(hua)文檔版(ban)式(shi)相對(dui)固定(ding),或稱為多版(ban)式(shi)文檔,同(tong)一類型(xing)不同(tong)樣本(ben)之間關鍵內容(rong)相同(tong),但是(shi)往往內容(rong)出現的位(wei)置卻不同(tong),如不同(tong)供(gong)應(ying)(ying)商(shang)采(cai)購(gou)的送貨單(dan),每個供(gong)應(ying)(ying)商(shang)都不同(tong),但是(shi)其(qi)關鍵內容(rong)都包含訂單(dan)號(hao)、商(shang)品(pin)信息等(deng)。
非結構化(hua)文檔(dang)又稱為開放版(ban)式文檔(dang),通常(chang)沒(mei)有顯著的版(ban)式特征,幾乎是純文本(ben)表達,雖然(ran)表達的內容相同,但是表達方式卻差(cha)異很大。常(chang)見的如(ru)合同、簡歷、招標文件等。
對于(yu)結構化和(he)半結構化文檔(dang),由于(yu)版式(shi)(shi)相對固定,當前行業內普遍的(de)做(zuo)法是通過模板或深(shen)度(du)學習模型(xing)的(de)方法,完成分(fen)類(lei)和(he)信息抽(chou)取等自動化處理(li),已經能夠解決大多(duo)(duo)數應用場(chang)景的(de)問題。但是,開(kai)放(fang)版式(shi)(shi)文檔(dang),由于(yu)其天然(ran)的(de)諸多(duo)(duo)難(nan)點,給智能文檔(dang)處理(li)帶來了很大的(de)困難(nan)。如下表,是我們(men)歸納的(de)開(kai)放(fang)版式(shi)(shi)文檔(dang)處理(li)的(de)主要難(nan)點。


表1 開(kai)放版(ban)式文(wen)檔特點

智能文檔(dang)處理核(he)心技術
如表1,相比于(yu)純(chun)文本或固定(ding)和(he)多版式文檔(dang),開放版式文檔(dang)處(chu)(chu)(chu)理(li)具(ju)有(you)諸多難點。因此,智能文檔(dang)處(chu)(chu)(chu)理(li)過程必須綜合應用計算機(ji)視覺(jue)(CV)、光學字符處(chu)(chu)(chu)理(li)(OCR)、文檔(dang)解析、自(zi)然語言處(chu)(chu)(chu)理(li)(NLP)和(he)文檔(dang)信(xin)息抽取等(deng)關鍵技術,才能更好地實現自(zi)動化(hua)和(he)智能化(hua)處(chu)(chu)(chu)理(li)。
計算機視覺(CV)技術

CV技術主要(yao)是對(dui)于文檔圖(tu)像進行各(ge)種圖(tu)像處理(li),常見如圖(tu)像去噪聲、去干擾、圖(tu)像增強、圖(tu)像壓縮(suo)、圖(tu)像分割等(deng)。其處理(li)目(mu)的(de)主要(yao)是為后續OCR環節提供(gong)高質量的(de)圖(tu)像輸(shu)入,以提升OCR的(de)性(xing)能。同時,利用圖(tu)像檢(jian)測和分割等(deng)技術,可以實現文檔物理(li)版面(mian)解析。

  • 光(guang)學字符處理(li)(OCR)技術(shu)

OCR是將紙質文(wen)檔、圖片等非(fei)數(shu)字(zi)化文(wen)件中的文(wen)字(zi)內(nei)容轉換(huan)為數(shu)字(zi)化格(ge)(ge)式的技術。當前主流實(shi)現(xian)上,借助表格(ge)(ge)識(shi)(shi)別(bie)、印章(zhang)識(shi)(shi)別(bie)、勾選(xuan)和二維碼識(shi)(shi)別(bie)等技術,在OCR環節可以實(shi)現(xian)圖像中所有通用(yong)對象(xiang)(文(wen)字(zi)、表格(ge)(ge)、印章(zhang)、勾選(xuan)、二維碼、簽名等)的統(tong)一識(shi)(shi)別(bie)和輸(shu)出(chu),作為后(hou)續智能(neng)化文(wen)檔處理(li)環節的輸(shu)入。

  • 文檔解(jie)析(xi)技術

文(wen)(wen)(wen)檔(dang)(dang)(dang)(dang)(dang)解(jie)(jie)析是在文(wen)(wen)(wen)檔(dang)(dang)(dang)(dang)(dang)協議解(jie)(jie)析或OCR處(chu)理(li)的(de)結果上(shang),通過版面分析、表格解(jie)(jie)析等(deng)技術(shu),實現文(wen)(wen)(wen)檔(dang)(dang)(dang)(dang)(dang)物理(li)和邏(luo)輯結構的(de)解(jie)(jie)析,得到文(wen)(wen)(wen)檔(dang)(dang)(dang)(dang)(dang)內容(rong)的(de)統一(yi)表示。以(yi)此作為進一(yi)步文(wen)(wen)(wen)檔(dang)(dang)(dang)(dang)(dang)分類、信息抽取(qu)和文(wen)(wen)(wen)檔(dang)(dang)(dang)(dang)(dang)比對(dui)等(deng)處(chu)理(li)的(de)輸(shu)入。IDP通常需要(yao)能夠(gou)支持所有格式(shi)的(de)文(wen)(wen)(wen)檔(dang)(dang)(dang)(dang)(dang)輸(shu)入,包括圖片、PDF、Word、OFD等(deng),因此,文(wen)(wen)(wen)檔(dang)(dang)(dang)(dang)(dang)解(jie)(jie)析環節需要(yao)能夠(gou)解(jie)(jie)析以(yi)上(shang)各種格式(shi)的(de)輸(shu)入文(wen)(wen)(wen)件,將其轉(zhuan)換成(cheng)統一(yi)的(de)表示形式(shi),如JSON文(wen)(wen)(wen)件。

  • 自然語言處理(li)(NLP)
NLP是(shi)一種(zhong)利用(yong)計算機技(ji)(ji)術對自(zi)然語言進行分(fen)(fen)析和(he)處(chu)理的(de)(de)技(ji)(ji)術,常(chang)見的(de)(de)NLP任務包(bao)括(kuo)分(fen)(fen)詞(ci)、詞(ci)性標注、句法分(fen)(fen)析、語義分(fen)(fen)析、文(wen)(wen)本(ben)(ben)分(fen)(fen)類(lei)、信(xin)息抽取(qu)、文(wen)(wen)檔(dang)摘要(yao)(yao)、情(qing)感分(fen)(fen)析等(deng)(deng)。IDP中主要(yao)(yao)使用(yong)的(de)(de)NLP技(ji)(ji)術包(bao)括(kuo)文(wen)(wen)本(ben)(ben)分(fen)(fen)類(lei)、文(wen)(wen)本(ben)(ben)信(xin)息抽取(qu)、語義理解等(deng)(deng)。通(tong)常(chang)的(de)(de)做(zuo)法是(shi)將(jiang)OCR輸出或文(wen)(wen)檔(dang)協議解析后的(de)(de)所有文(wen)(wen)本(ben)(ben)塊(kuai)進行拼接,得到文(wen)(wen)本(ben)(ben)序列(lie),再(zai)通(tong)過文(wen)(wen)本(ben)(ben)分(fen)(fen)類(lei)、信(xin)息抽取(qu)等(deng)(deng)技(ji)(ji)術,實現文(wen)(wen)檔(dang)的(de)(de)分(fen)(fen)類(lei)和(he)信(xin)息抽取(qu)。另外(wai),通(tong)過NLP技(ji)(ji)術,也可以對文(wen)(wen)檔(dang)進行自(zi)動摘要(yao)(yao)、情(qing)感分(fen)(fen)析和(he)智能問答等(deng)(deng)處(chu)理。
  • 文(wen)檔信息抽(chou)取
相比于純文本,文檔(dang)的最大特(te)(te)(te)點(dian)是其富格(ge)式特(te)(te)(te)點(dian)。因此,文檔(dang)中(zhong)信(xin)息(xi)抽取必須(xu)依賴于版面位置(zhi)等視覺特(te)(te)(te)征,比如從(cong)文檔(dang)中(zhong)的圖表或表格(ge)中(zhong)抽取信(xin)息(xi),或者(zhe)從(cong)特(te)(te)(te)定版面位置(zhi)區域的結構(gou)化(hua)信(xin)息(xi)塊中(zhong)抽取信(xin)息(xi)。相比于簡單地從(cong)大段文本序列中(zhong)做信(xin)息(xi)抽取,文檔(dang)信(xin)息(xi)抽取技術(shu)難度更大。
智(zhi)能文檔處(chu)理(li)流程
如(ru)下圖,是智能文檔統一處(chu)理(li)流程。

圖1 智能(neng)文檔處理流程

主要包含以下環(huan)節:
  • 文檔預處(chu)理
該步(bu)驟主(zhu)要針對Word、PDF等文檔(dang)協議(yi)進行(xing)解析處(chu)理(li)。
  • OCR
通(tong)過通(tong)用OCR識別(bie)模型,對(dui)輸入(ru)的文檔圖(tu)像(xiang)上的文字(zi)、印章、簽名、表格等通(tong)用要素(su)進行識別(bie),得到(dao)文本和位(wei)置,以及表格結(jie)構化數據。
  • 版面分(fen)析
利(li)用版面(mian)分析(xi)技術(shu),定位出文檔圖像上所有(you)的標題(ti)、段落(luo)、表(biao)格、圖表(biao)、頁(ye)眉、頁(ye)腳(jiao)等版面(mian)信息。再利(li)用標題(ti)和段落(luo)等信息,做文檔邏輯結(jie)構分析(xi),得到(dao)文檔結(jie)構。
  • 信息(xi)抽取
基于版面和(he)目錄分析的結(jie)果,結(jie)合文檔協議解析或(huo)OCR的結(jie)果,利用自然語言處理等技術,進行(xing)文檔關(guan)鍵信息抽取。
  • 信息校驗
利(li)用預設的規則,對抽取出的信(xin)息進(jin)行校驗,包括數(shu)據格(ge)式檢查、預設的審閱規則檢查等。
智(zhi)能文檔處理應用場景
主(zhu)要的智能文檔處理應用場(chang)景包(bao)括:
  • 分類和(he)標簽化
通(tong)過智能(neng)文檔(dang)處(chu)理技術(shu),可以對大(da)量文檔(dang)進行分類和標(biao)簽化,從而實現文檔(dang)的快速檢索、內(nei)容推薦和歸(gui)檔(dang)處(chu)理等(deng)功能(neng)。
  • 信息抽取
智(zhi)(zhi)能(neng)(neng)文(wen)檔處理可以幫助從(cong)文(wen)檔中抽取關鍵信息,如(ru)關鍵的短(duan)語、實(shi)體、事(shi)件等。這些信息在知識圖譜(pu)構(gou)建、智(zhi)(zhi)能(neng)(neng)搜索、智(zhi)(zhi)能(neng)(neng)比對、智(zhi)(zhi)能(neng)(neng)問(wen)答等應用場景中具有重(zhong)要的價(jia)值。
  • 摘要與(yu)生成
利用智能文(wen)檔(dang)處(chu)理技(ji)術,可(ke)(ke)以對文(wen)檔(dang)進行(xing)自動摘要,生(sheng)成簡潔(jie)、精煉的摘要內(nei)容。此外,還可(ke)(ke)以根據用戶輸入的關鍵詞或短語生(sheng)成特定主題的文(wen)章(zhang),以滿足用戶需求。
  • 問(wen)答(da)與對話
通過智能(neng)文(wen)檔處(chu)理技術,可以構建智能(neng)問答系統,為用戶提供及時準確的(de)文(wen)檔內容(rong)信息。
未(wei)來隨(sui)著大模型(xing)等人工(gong)智(zhi)能(neng)(neng)技術的不(bu)斷發展,智(zhi)能(neng)(neng)文(wen)檔(dang)處理將會在各個行業的應(ying)用場景中(zhong)不(bu)斷普及化。
賽博智能(neng)學習平臺智能(neng)文(wen)檔處理
賽(sai)博智(zhi)(zhi)能(neng)學習平(ping)臺(tai)定位于(yu)一體化(hua)(hua)機器學習訓(xun)練(lian)(lian)平(ping)臺(tai),集(ji)成了對(dui)于(yu)結構化(hua)(hua)和非結構文(wen)檔的(de)智(zhi)(zhi)能(neng)化(hua)(hua)處理功能(neng),包括智(zhi)(zhi)能(neng)文(wen)檔分類、文(wen)檔解析和文(wen)檔信息抽取等。能(neng)夠支持(chi)合同、法律(lv)文(wen)書(shu)、招(zhao)投標文(wen)件等各種開放版式長文(wen)檔的(de)智(zhi)(zhi)能(neng)化(hua)(hua)處理。基于(yu)平(ping)臺(tai)自定義模(mo)(mo)板(ban)和自訓(xun)練(lian)(lian)模(mo)(mo)型能(neng)力,通過現場模(mo)(mo)板(ban)定制、模(mo)(mo)型標注訓(xun)練(lian)(lian)的(de)方式,能(neng)夠形(xing)成即時可用的(de)文(wen)檔AI能(neng)力。
如下圖,是賽博智能學(xue)習平臺智能文檔處理(li)的基本流程。


圖2 賽博智能學習平臺(tai)智能文檔處理流程

未來,易道博識將繼續針對金融(rong)、能(neng)源、通信等行業(ye)客戶,在業(ye)務(wu)運營、審核和(he)監督管(guan)理、信息檢索和(he)風險管(guan)理等場景(jing)下,圍(wei)繞數(shu)字化、自動(dong)化和(he)智(zhi)能(neng)化需求,依托(tuo)賽博智(zhi)能(neng)學習平臺,為企業(ye)打造強(qiang)大AI底座,助力企業(ye)建設基(ji)于(yu)AI模型(xing)全(quan)生命周期的標準化、一體(ti)化生產運營體(ti)系。
賽博智(zhi)能學習平臺以私有化部署、現(xian)場訓練(lian)的(de)形(xing)式滿足客戶對數據安全要求,通(tong)過與(yu)業務系統(tong)深度融(rong)合,滿足各業務場景在圖像(xiang)處理、OCR、智(zhi)能文檔處理和NLP等方向需(xu)求。
賽博智能(neng)學習平臺持續(xu)將AI大模型等前沿技術與(yu)行業數據深度結合,在(zai)(zai)技術與(yu)業務場(chang)景(jing)之間搭橋鋪路(lu),讓(rang)AI技術快速在(zai)(zai)場(chang)景(jing)中落地,在(zai)(zai)應用(yong)場(chang)景(jing)中產生價值,帶動產業發展(zhan)和升級。
在線留言