大語言模型的出現(xiàn),推動了人工智能在企業(yè)中的應(yīng)用。許多組織正嘗試將AI融入業(yè)務(wù)流程。然而,隨著在實際業(yè)務(wù)場景中的深入應(yīng)用,單純依賴單一通用大模型的局限性也開始顯現(xiàn)。
通用大語言模型因其廣泛的知識覆蓋和處理多樣化任務(wù)的能力而備受關(guān)注。但從企業(yè)級應(yīng)用的角度看,其局限性同樣突出:
●運行成本:通用大模型龐大的參數(shù)量,對硬件資源有極高要求,部署和運行成本高昂。
●輸出可控性:由于訓(xùn)練數(shù)據(jù)的廣博與復(fù)雜,通用大模型的輸出可能存在不準(zhǔn)確或與事實不符的“幻覺”現(xiàn)象。在金融、法律等對信息準(zhǔn)確性有嚴(yán)格要求的行業(yè),構(gòu)成了嚴(yán)重的操作風(fēng)險。
●決策可解釋性:通用大模型的決策邏輯通常不透明,形成了“黑箱”問題。這對于那些業(yè)務(wù)流程需要滿足合規(guī)性與可追溯審計要求的行業(yè),是一個核心障礙。
人工智能領(lǐng)域的一個重要發(fā)展方向是小型語言模型的應(yīng)用。小型語言模型,是為特定領(lǐng)域或任務(wù)進行深度優(yōu)化的模型。它們的技術(shù)優(yōu)勢在于:
●高精度與高可靠性:通過在特定行業(yè)的數(shù)據(jù)集上進行訓(xùn)練,小模型在處理專業(yè)任務(wù)時,其精度和可靠性通常優(yōu)于通用模型。
●高效率與低成本:更小的模型規(guī)模意味著更快的處理速度和更低的部署成本。同時,小模型更易于實現(xiàn)私有化部署,有助于保障企業(yè)數(shù)據(jù)的安全可控。
●高可解釋性:小模型的內(nèi)部邏輯相對清晰,更便于進行監(jiān)管和合規(guī)性審查。
行業(yè)內(nèi)的共識是,未來并非由某一種模型主導(dǎo),而是會形成一個“多模型協(xié)同”的技術(shù)生態(tài)。
在這種生態(tài)中,不同類型的模型各司其職。一個先進的AI系統(tǒng)應(yīng)具備“模型路由”能力,即根據(jù)接收到的任務(wù)類型,系統(tǒng)能動態(tài)地將其分配給最適合處理該任務(wù)的模型。這種架構(gòu)可以最大化地結(jié)合不同模型的優(yōu)勢,實現(xiàn)系統(tǒng)整體在效率、成本和可靠性上的最優(yōu)化。
這一技術(shù)理念,已在對可靠性要求極高的金融行業(yè)中得到實踐和驗證。金融業(yè)務(wù)涉及大量文檔處理,文件種類繁多,既有版式固定的標(biāo)準(zhǔn)化文檔,也有格式各異的非標(biāo)文檔,是檢驗AI模型能力的理想場景。
以易道博識的智能文檔處理平臺為例(簡稱DeepIDP),該平臺采用了“大小模型協(xié)同”架構(gòu),
●用小模型處理高頻、標(biāo)準(zhǔn)化任務(wù)。對于業(yè)務(wù)中出現(xiàn)頻率最高、版式最標(biāo)準(zhǔn)的文檔,例如身份證、銀行卡等,平臺會調(diào)用傳統(tǒng)OCR識別模型進行處理。
●用大模型處理復(fù)雜、非標(biāo)準(zhǔn)化任務(wù)。當(dāng)遇到版式不固定、內(nèi)容復(fù)雜的合同、財務(wù)報表、業(yè)務(wù)申請表等“長尾文檔”時,平臺則會調(diào)用大模型來進行抽取,它并非通用LLM,而是專為金融行業(yè)文檔進行深度訓(xùn)練的模型,能夠精準(zhǔn)理解并抽取復(fù)雜版式中的關(guān)鍵信息 。
這種協(xié)同架構(gòu)為業(yè)務(wù)帶來了切實價值,并直接解決了前述通用模型的局限:
1、解決“黑箱”問題,確保合規(guī):與通用大模型不同,易道博識的GIE大模型能夠?qū)崿F(xiàn)“數(shù)據(jù)可溯源”,即抽取的每一個字段都能準(zhǔn)確關(guān)聯(lián)回原始單據(jù)上的相應(yīng)位置 。這保證了數(shù)據(jù)的真實性和可審計性,滿足了金融業(yè)務(wù)的合規(guī)要求 。
2、優(yōu)化成本效益:通過將不同任務(wù)智能地分配給最合適的模型,實現(xiàn)了硬件資源的合理利用和高效協(xié)同,為企業(yè)在成本與性能之間找到了最佳平衡點 。
企業(yè)在進行AI技術(shù)布局時,應(yīng)超越“模型越大越好”的單一維度,轉(zhuǎn)向構(gòu)建一個更為靈活和高效的多模型應(yīng)用體系。
1. 問:為什么多模態(tài)大模型不能直接取代所有傳統(tǒng)的OCR識別?
答:盡管大模型泛化能力強,但在處理身份證等高頻標(biāo)準(zhǔn)文檔時,存在成本高昂、速度慢、字符級識別率偏低等問題。在這些場景下,專用小模型具備成本低、速度快、識別精度高的優(yōu)勢,是更經(jīng)濟高效的選擇。
2. 問:易道博識的智能文檔處理平臺如何解決金融行業(yè)的信創(chuàng)國產(chǎn)化難題?
答:平臺通過統(tǒng)一的軟件架構(gòu),從底層原生適配主流國產(chǎn)硬件(如C86+DCU、ARM+昇騰)。這避免了企業(yè)因硬件不同而維護多套軟件版本的難題,極大降低了開發(fā)與運維成本,并保障了企業(yè)AI能力投資的連續(xù)性和可擴展性。
3. 問:對于版式多變的非標(biāo)文檔(如各類申請單),你們的大模型識別方案有什么優(yōu)勢?
答:我們采用經(jīng)專業(yè)OCR數(shù)據(jù)二次訓(xùn)練的大模型,其識別準(zhǔn)確率和速度均遠超原生大模型。更關(guān)鍵的是,它支持將抽取的每個字段精準(zhǔn)關(guān)聯(lián)回原始單據(jù)的坐標(biāo)位置,解決了原生大模型結(jié)果無法溯源、難以人工核驗的問題。