免费久久人人爽人人爽AV_亚洲s色大片在线观看_丰满人妻熟妇乱又伦精品_人妻在厨房被色诱 中文字幕

首頁
核心技術
產品體系
解決方案
動態資訊
關于我們
搜索
首頁 動態資訊 行業資(zi)訊(xun)

大模型技術在智能文檔處理中的應用(上篇)

來(lai)源:易道博識 發布時間(jian):2023-06-15



ChatGPT爆火,大語言模型技術廣受(shou)關注
ChatGPT是OpenAI公(gong)司基于(yu)大(da)型(xing)預(yu)訓練語(yu)言(yan)模(mo)型(xing)(Large Language Models, LLM) GPT-3.5發布的(de)智(zhi)能聊(liao)天機器人(ren),因其(qi)驚(jing)艷(yan)的(de)語(yu)義理解(jie)、智(zhi)能會話和(he)文(wen)本生成(cheng)能力,獲得了全球(qiu)1億月活用(yong)戶的(de)熱情追捧。ChatGPT可以(yi)從海量(liang)未(wei)標注數據集(ji)中獲得的(de)信息(xi),自動識別、總結、翻(fan)譯、預(yu)測和(he)生成(cheng)內(nei)容。3月15日,OpenAI又發布了GPT-4多模(mo)態大(da)模(mo)型(xing),該(gai)模(mo)型(xing)能夠支持文(wen)本和(he)圖像輸入,與 GPT-3.5相比(bi),其(qi)回答(da)準確度、文(wen)字(zi)輸入長度等各方(fang)面性能均有顯著提升。
ChatGPT的問世,開啟(qi)了新(xin)一輪的技(ji)術(shu)浪潮,標志著人(ren)工智能(neng)(neng)技(ji)術(shu)發展(zhan)正式進(jin)入了大模(mo)(mo)型(xing)(xing)時代。模(mo)(mo)型(xing)(xing)的背后其(qi)實是“知(zhi)識”。未(wei)來,“模(mo)(mo)型(xing)(xing)”將(jiang)無處(chu)不在,人(ren)工智能(neng)(neng)與行業應用的結合會更加緊密(mi),以模(mo)(mo)型(xing)(xing)驅動的發展(zhan)范式變革(ge)正在快(kuai)速形成,整個人工智能行業的生態會愈發完整。
可以看出,ChatGPT驚艷效果(guo)本(ben)質上來自(zi)(zi)于(yu)其(qi)背后的(de)大(da)語(yu)言(yan)模型(xing)技術(shu)。那么(me),究竟什么(me)是(shi)大(da)語(yu)言(yan)模型(xing)?大(da)語(yu)言(yan)模型(xing)是(shi)一種(zhong)基于(yu)深度學習算(suan)法(fa)的(de)自(zi)(zi)然語(yu)言(yan)處理(li)技術(shu),旨(zhi)在讓計算(suan)機能(neng)夠理(li)解和(he)(he)生成(cheng)自(zi)(zi)然語(yu)言(yan)文(wen)本(ben)。大(da)語(yu)言(yan)模型(xing)的(de)訓(xun)練(lian)通(tong)常需要海量的(de)文(wen)本(ben)數(shu)據(ju)(如(ru)維基百科、新(xin)聞文(wen)章、社交媒(mei)體等)和(he)(he)強大(da)的(de)計算(suan)資源。在訓(xun)練(lian)過程(cheng)中(zhong),大(da)語(yu)言(yan)模型(xing)會通(tong)過學習這(zhe)些(xie)數(shu)據(ju)中(zhong)的(de)模式和(he)(he)規律來調整自(zi)(zi)己的(de)權重和(he)(he)參數(shu),從而提高自(zi)(zi)身對語(yu)言(yan)的(de)理(li)解和(he)(he)生成(cheng)能(neng)力。大(da)語(yu)言(yan)模型(xing)的(de)應用非常廣泛,如(ru)語(yu)言(yan)翻譯、問答(da)系統、語(yu)音(yin)識別和(he)(he)文(wen)本(ben)生成(cheng)等。

智能文(wen)檔處理難點(dian)解析
智能(neng)文檔處理(IDP,Intelligent Document Processing)是利用人(ren)工智能(neng)技術,自動從復雜的非結(jie)(jie)構化和(he)半結(jie)(jie)構化文(wen)檔中抽取關鍵數(shu)據(ju),并將其(qi)轉換成結(jie)(jie)構化數(shu)據(ju)的技術。常見的文(wen)檔包括純文(wen)本(ben)、帶(dai)格式文(wen)檔和(he)富格式文(wen)檔三種類型(xing),如下(xia)圖示例。

圖1:常見文檔類(lei)型

  • 純文本

由(you)大段(duan)純文字組成(cheng),內容形(xing)式(shi)比較單一(yi)。通(tong)常利用自然語(yu)言處理(li)技術,即可以完成(cheng)語(yu)義(yi)理(li)解和分析處理(li)工作。
  • 帶(dai)格式文檔(dang)

如Word等帶有(you)格式(shi)的(de)文檔,其主(zhu)要特點是包含有(you)結構化(hua)(hua)(hua)的(de)信息,可以(yi)直接解析出文檔的(de)物理元素和邏輯結構,進(jin)而(er)轉化(hua)(hua)(hua)為(wei)結構化(hua)(hua)(hua)數據。

  • 富格式文檔(dang)
相較于(yu)純文本和帶格(ge)式(shi)文檔,富格(ge)式(shi)文檔更加(jia)復雜,除了(le)各種形式(shi)的文本信息外(wai),還包含有(you)豐(feng)富的多模態元素,如(ru)表格(ge)和圖片。富格(ge)式(shi)文檔具有(you)如(ru)下幾個方面的特點:
· 多樣性(xing)
富格(ge)式(shi)(shi)文檔(dang)的(de)多樣性主要(yao)體現(xian)在(zai)格(ge)式(shi)(shi)、種類(lei)、內容和版(ban)式(shi)(shi)等(deng)維度(du)。常見的(de)格(ge)式(shi)(shi)有(you)(you)拍照圖像、掃描件、可解析格(ge)式(shi)(shi)(如(ru)PDF)等(deng),版(ban)式(shi)(shi)包(bao)括(kuo)有(you)(you)固定、多版(ban)式(shi)(shi)和開放版(ban)式(shi)(shi)等(deng)類(lei)型。
· 多(duo)模態信(xin)息豐富性
富格(ge)式文檔包(bao)含有(you)豐(feng)富的元素(su)信息(xi),如文字、標題(ti)、段落(luo)、表(biao)格(ge)、圖表(biao)、印章、簽名(ming)、頁眉和頁腳。
· 領域差異性
不同領域(yu)的文檔通(tong)常在(zai)(zai)種(zhong)類、版式(shi)、語(yu)料和表達方式(shi)方面(mian)差(cha)異很大,如金融、地(di)產(chan)、教育和醫(yi)療等,實際中(zhong)存在(zai)(zai)著大量領域(yu)特定文檔。
· 長短不一致性
從單張圖片(pian)、單頁文檔(dang)(dang)到幾十上百頁的(de)長(chang)(chang)文檔(dang)(dang),文檔(dang)(dang)的(de)長(chang)(chang)度(du)通常跨度(du)很(hen)大。
以上(shang)富格(ge)式文檔特點,增加了通用IDP系(xi)統(tong)的(de)處理難度。
關于更(geng)詳細的智能文檔處理難點介紹,請(qing)參見《淺談智能文檔處理技術和應用》文章。

在線留言