ɫ͵͵888ŷ��Ʒ�þþ�,��޼��ձȾþ�88ɫ�ۺ�

首頁動態資訊行業資訊

大模型技術在智能文檔處理中的應用（下篇）

來源：易(yi)道博識發(fa)布(bu)時間：2023-06-15

一個專業的IDP系統至少需要具備如下兩方面的能力，才能夠滿足富格式文檔的智(zhi)能化(hua)處理需求(qiu)。

具備(bei)多模態信息處理能(neng)力

由于(yu)文檔本身多(duo)模態(tai)的特(te)點，決定(ding)了IDP系(xi)統必須能夠綜合應(ying)用(yong)計(ji)算機(ji)視覺和自然語言(yan)處理等技術，包(bao)括圖像處理、OCR、表(biao)(biao)格(ge)(ge)識別(bie)、文檔解(jie)析(xi)(xi)、文本分(fen)析(xi)(xi)、文本理解(jie)等(deng)，對于文檔中(zhong)的標題、段落、表(biao)(biao)格(ge)(ge)、圖(tu)表(biao)(biao)、印章(zhang)、簽名等(deng)多模態信(xin)息進行識別(bie)、提(ti)取(qu)和進一步的理解(jie)和分(fen)析(xi)(xi)。

具備領(ling)域樣本高效學(xue)習能力

由于不同領域的文檔特征差(cha)異很大，為了在領域數據上達到業務可用的精(jing)度要求，IDP系(xi)統必須具備領域樣本高效學(xue)習能(neng)力，能(neng)夠生成優化后的模型，滿足業務場景應(ying)用需求，為實(shi)際業務創造價值。

多模態能(neng)(neng)力(li)和(he)領域(yu)學習能(neng)(neng)力(li)等方面的(de)(de)(de)要求(qiu)(qiu)，決定了(le)通(tong)用(yong)IDP系(xi)統(tong)(tong)是(shi)一個復(fu)雜的(de)(de)(de)綜合(he)性軟件(jian)系(xi)統(tong)(tong)，對于(yu)技術(shu)架構和(he)系(xi)統(tong)(tong)設計提出了(le)很高的(de)(de)(de)要求(qiu)(qiu)。架構上(shang)，IDP系(xi)統(tong)(tong)需(xu)要能(neng)(neng)夠兼容各種深度學習框架，并能(neng)(neng)夠對于(yu)各種預(yu)訓練大模型、多模態預(yu)置模型和(he)用(yong)戶自訓練的(de)(de)(de)領域(yu)模型實現(xian)有(you)效(xiao)的(de)(de)(de)模型治理。并且，能(neng)(neng)夠以(yi)統(tong)(tong)一的(de)(de)(de)模型能(neng)(neng)力(li)層(ceng)，向(xiang)文檔應用(yong)層(ceng)提供接口，滿足(zu)上(shang)層(ceng)智(zhi)能(neng)(neng)化應用(yong)的(de)(de)(de)調(diao)用(yong)需(xu)求(qiu)(qiu)。

大語言模型在智能(neng)文檔處(chu)理中(zhong)的價值與挑(tiao)戰

如(ru)下圖，是一個常見(jian)的IDP系統模型技術棧。可以看出，LLMs僅僅是在自然語言文本這個(ge)模態上，作為預訓練(lian)基(ji)礎模型(xing)（如紅(hong)色高亮(liang)部分）。相比(bi)于文(wen)本領域的處理(li)能力(li)，IDP系(xi)統中更加核心的功(gong)能在于文(wen)檔(dang)圖像和(he)多模(mo)態(tai)信(xin)息(xi)(xi)的綜合處理(li)能力(li)，包括OCR、表格(ge)識(shi)(shi)別、印章識(shi)(shi)別，以(yi)及文(wen)檔(dang)分類、信(xin)息(xi)(xi)檢索(suo)和(he)文(wen)檔(dang)抽取等。

圖(tu)2 IDP模型技術棧

因此(ci)，對于IDP系統，大語(yu)言(yan)模(mo)型主要(yao)作用是幫助提升文(wen)檔文(wen)本的理解(jie)和生成能(neng)力(li)，尚無法完全替代(dai)IDP模(mo)型技術棧。

大語言模型(xing)在(zai)IDP系統的(de)主要應用(yong)包括：

提(ti)升文檔分類(lei)精度(du)

利用大(da)語言模型強大(da)的文本理解能(neng)(neng)力，提(ti)(ti)升文檔(dang)中文本信息的分(fen)類能(neng)(neng)力，如段(duan)落和條(tiao)款，進而提(ti)(ti)升文檔(dang)信息檢索(suo)和文檔(dang)分(fen)類的效果(guo)。

提(ti)供文(wen)檔(dang)知(zhi)識問(wen)答(da)能力

相比于BERT等(deng)大語言模型(xing)，GPT大模型(xing)具備生(sheng)成式的(de)特點，能夠更好滿足文檔(dang)知識實時問答的(de)應用，幫助實現諸如“與你(ni)的(de)文檔(dang)聊(liao)天”等(deng)應用功能。

提升信息(xi)抽取精度

大語言模(mo)型(xing)在文(wen)本信(xin)息(xi)(xi)抽(chou)取(qu)(qu)(qu)方面(mian)具備強大的能力(li)，如從特定條(tiao)款或段落中(zhong)抽(chou)取(qu)(qu)(qu)實(shi)體、關系和事件，幫(bang)助提(ti)升(sheng)文(wen)檔(dang)關鍵(jian)信(xin)息(xi)(xi)抽(chou)取(qu)(qu)(qu)能力(li)。

提(ti)升條款和段落比(bi)對精度

利(li)用大(da)語言模型(xing)強大(da)的理解能(neng)力(li)，能(neng)夠提升文(wen)檔中不同條款、段(duan)落之間，以及與標準(zhun)條款和段(duan)落的比對(dui)精度，改善文(wen)檔比對(dui)效果。

大(da)語言(yan)模(mo)型在幫助(zhu)提升(sheng)IDP文本處(chu)理能力的同時(shi)，也(ye)面(mian)臨諸多(duo)挑戰和風險，主要包括(kuo)：

模型輸入長度有(you)限(xian)，長文檔(dang)處理能力受限(xian)

GPT-4具(ju)有最大32K Token輸入和25K Word輸(shu)入(ru)的(de)(de)要求，限制了(le)對于(yu)長(chang)文檔的(de)(de)處理能(neng)力，如幾(ji)十上百頁(ye)的(de)(de)合同(tong)和報告文件。這就要求必須通過前置的(de)(de)信息檢索或段落抽(chou)取(qu)等(deng)預(yu)處理，提(ti)取(qu)出大(da)(da)篇幅文檔中的(de)(de)相(xiang)關部分，再輸(shu)入(ru)大(da)(da)模型進行(xing)后續任務處理。

生成式(shi)特(te)點，導致模型輸出無法溯源，準確性差

不同(tong)于BERT等大(da)模型，GPT(Generative Pre-trained Tranformer)模型屬(shu)于生成式語言模型，對于模型輸出(chu)的信息無(wu)法進(jin)行精準溯源，即很(hen)多情況下(xia)無(wu)法準確獲得輸出(chu)內容在(zai)文(wen)檔(dang)中的具(ju)體位置，這就增加了輸出(chu)的風險(xian)性。在(zai)對于模型精準度要求(qiu)高(gao)的場景下(xia)，如金(jin)融(rong)業(ye)務場景，往往極小(xiao)概率的風險(xian)也會帶(dai)來巨大的損失。因(yin)此，就需(xu)要通過模型優化和(he)后處理等方法進(jin)行有效規避(bi)，避(bi)免非(fei)法輸出(chu)問(wen)題。

領域知識匱(kui)乏(fa)，影(ying)響模(mo)型(xing)效果

上文提(ti)到，文檔的一大特征在于其領(ling)域信息的多(duo)樣性(xing)和(he)差異性(xing)。通用大語言(yan)模型通常基于公開的互聯(lian)網語料訓練獲得，包括維(wei)基百(bai)科、新聞文章、社交媒體等，因此，缺乏對(dui)于(yu)領域(yu)知(zhi)識的深度學(xue)(xue)習和(he)理解。實際(ji)應用中，必須結合領域(yu)數(shu)據基于(yu)預訓練(lian)語言模(mo)型進行學(xue)(xue)習和(he)調(diao)優，以(yi)達到實際(ji)業務(wu)場景的使用要求，這也(ye)是IDP系統必須具備高效學(xue)(xue)習能(neng)力的根本原因。

模型(xing)參數量巨大，對算力要求高

大(da)模型(xing)通常具備較大(da)的參數規模，如GPT-3.5有1750億參數(shu)，對于(yu)本地化和私有(you)(you)化部署場(chang)景(jing)下(xia)的算力(li)成(cheng)本具有(you)(you)很高的要求。因此(ci)，這(zhe)些場(chang)景(jing)下(xia)，必(bi)須進行模型(xing)輕量化處(chu)理才能真正落地使用，如通過(guo)知識蒸餾和模型(xing)量化等技術。

賽(sai)博(bo)結合(he)大模型(xing)技術(shu)打造高(gao)效學習(xi)能力，提供(gong)IDP全新解決方(fang)案

賽博(bo)智(zhi)能學(xue)習平臺(tai)定位于一站(zhan)式機(ji)器學(xue)習平臺(tai)，基于預置(zhi)的多模態(tai)能力(li)和(he)(he)高效的領域數據學(xue)習能力(li)，支持對于圖片和(he)(he)文檔等非結構化數據的智(zhi)能化處理。在預(yu)置多模(mo)態能力的(de)基(ji)礎上，提供高效的(de)領域數據(ju)學習能力，是賽(sai)博平臺智能文檔處理(li)的(de)核心優勢。如下圖(tu)，是關(guan)于賽博平(ping)臺智能(neng)(neng)文檔處理(li)的(de)核(he)心能(neng)(neng)力介紹。

圖(tu)3 賽(sai)博平臺智能(neng)文檔(dang)處理核心能(neng)力

主(zhu)要的預(yu)置多(duo)模態能(neng)力包括：

圖像處(chu)理(li)

提(ti)供通用文檔(dang)圖(tu)像檢測(ce)、區(qu)域分(fen)割和矯(jiao)正、文檔(dang)圖(tu)像質(zhi)量檢測(ce)（模糊、反光、遮擋、拍屏、水印(yin)、復印(yin)、篡改(gai)、變形、切邊和距離遠(yuan)等）、干擾和噪聲(sheng)去除(chu)等預置能力。

OCR

提供(gong)通用(yong)和場景(jing)OCR功能。通用(yong)OCR支持(chi)(chi)對于(yu)常(chang)見(jian)的文(wen)檔圖像(xiang)要素的識別，包括文(wen)本（打印(yin)(yin)、手寫、多(duo)語言）、表(biao)格、印(yin)(yin)章、勾選(xuan)和簽名等。場景(jing)OCR功能支持(chi)(chi)超過50種場景文檔圖像的(de)識別能(neng)力，涵蓋標準卡證、票(piao)據、表單和憑證。

文檔處理

提供通用(yong)的文(wen)檔(dang)處理能力，包(bao)括文(wen)檔(dang)格式轉換、協(xie)議解(jie)析、版面分析、文(wen)檔(dang)解(jie)析等，以及合(he)同等場景文(wen)檔(dang)抽(chou)取能力。

自然語言處(chu)理

提供(gong)基礎(chu)的(de)自然語言處(chu)理功(gong)能(neng)，包(bao)括(kuo)文本分類、信息抽(chou)取、通用問答、情感(gan)分析等。

如前節所述，文檔(dang)具有領(ling)域特征差異大(da)的特點，主要表現在不(bu)同領(ling)域文檔(dang)之(zhi)間在種類、版式(shi)、語料和表達方(fang)式(shi)等方(fang)面存在較(jiao)大(da)差異。因(yin)此，高(gao)效的領(ling)域文檔(dang)學習能(neng)力，是IDP系統必備的基本功能(neng)，這也是賽博平臺(tai)(tai)的核心功能(neng)之一。如下圖(tu)是關于賽博平臺(tai)(tai)高效學習(xi)能(neng)力的原理(li)介紹。

圖4 賽博學習(xi)能力

賽博(bo)平(ping)臺IDP學習能力以大規模(mo)語(yu)言模(mo)型和文檔版式預訓練模(mo)型為基(ji)礎(chu)，通過下游任務(wu)中/小模型算法設計，結合領域數(shu)據，高效生成(cheng)場景(jing)模型，并通過一鍵式模(mo)型部署和API生成，輸出場景化AI能力，如文(wen)檔分(fen)類(lei)、信息檢索(suo)、文(wen)檔抽取、段落比對等。依托機器學習功能底座(zuo)，賽博(bo)平臺能夠(gou)提供(gong)文(wen)檔數據(ju)集(ji)標注(zhu)、模型訓練(lian)、模型部署和API應用(yong)等一體化(hua)操作功能，支持用(yong)戶通過(guo)可視化(hua)頁面，高效完成(cheng)領域文(wen)檔數據(ju)的(de)學習和模型能力(li)的(de)輸出與應用(yong)。

另外，為了更好地(di)滿足業務場景需求，實現與業務深(shen)度融合(he)(he)，賽(sai)博平臺支持模(mo)(mo)型(xing)輸(shu)出(chu)規則和API代碼補丁定(ding)制，能夠在線(xian)實現模(mo)(mo)型(xing)輸(shu)出(chu)格式轉換、字段拆分(fen)與合(he)(he)并、噪聲(sheng)剔除(chu)以及其他高(gao)級(ji)后處理功能，有效解(jie)決(jue)模(mo)(mo)型(xing)輸(shu)出(chu)與業務需求之間“最后一公里”的(de)問題。

未來，易道博識將繼續(xu)立足于金融(rong)(rong)、能(neng)源、通(tong)信等行(xing)業(ye)，圍繞(rao)企業(ye)在日常業(ye)務運營、審核和(he)監(jian)督管理、信息檢索和(he)風險管控等場景(jing)下的數智化轉型需求，依托賽博智能(neng)學習(xi)平臺(tai)底座(zuo)，在滿足客戶(hu)數據安(an)全的前(qian)提(ti)下，通(tong)過高效(xiao)學習(xi)能(neng)力(li)，將大模型等前(qian)沿技術與(yu)客戶(hu)業(ye)務數據相結合，發揮巨大效(xiao)能(neng)，通(tong)過與(yu)業(ye)務場景(jing)的深(shen)度融(rong)(rong)合，為業(ye)務賦能(neng)。

上一篇：易道博識入選“第六屆數字金融創新大賽——2023數字金融創新先鋒榜”

下一篇：大模型技術在智能文檔處理中的應用（上篇）

返回列表

更多資訊

易道博識OCR智能(neng)識別方案，助力(li)金融業(ye)降本(ben)增效(xiao)

熱門標簽

人工智能 OCR識別證券 IT 計算機視覺訓練平臺銀行駕駛證識別財務識別保險

免费久久人人爽人人爽AV_亚洲s色大片在线观看_丰满人妻熟妇乱又伦精品_人妻在厨房被色诱中文字幕

搜索

大模型技術在智能文檔處理中的應用（下篇）

國內統一咨詢服務熱線

（早09:00 - 晚18:00）

免费久久人人爽人人爽AV_亚洲s色大片在线观看_丰满人妻熟妇乱又伦精品_人妻在厨房被色诱 中文字幕

搜索

大模型技術在智能文檔處理中的應用（下篇）

國內統一咨詢服務熱線

（早09:00 - 晚18:00）

免费久久人人爽人人爽AV_亚洲s色大片在线观看_丰满人妻熟妇乱又伦精品_人妻在厨房被色诱中文字幕