在2020年CCKS(全國知識圖譜與語義計(jì)算大會)舉辦的“基于本體的金融知識圖譜自動化構(gòu)建技術(shù)評測”中,我們團(tuán)隊(duì)提出的方案最終取得了第五名的成績。該評測任務(wù)聚焦于金融領(lǐng)域,要求參賽者利用給定的非結(jié)構(gòu)化文本和預(yù)定義的金融本體,自動化地抽取實(shí)體、關(guān)系及屬性,以構(gòu)建結(jié)構(gòu)化的知識圖譜。本文旨在我們的核心方法,并探討其在更廣泛場景下的推廣潛力。
我們的方法并非依賴單一的模型或技巧,而是構(gòu)建了一個多階段、多模型協(xié)同的流水線系統(tǒng),核心思想是“融合先驗(yàn)、迭代優(yōu)化”。主要步驟如下:
1. 本體引導(dǎo)的實(shí)體識別與分類:
金融本體提供了嚴(yán)謹(jǐn)?shù)母拍顚哟魏图s束,這是寶貴的先驗(yàn)知識。我們采用基于BERT的序列標(biāo)注模型進(jìn)行命名實(shí)體識別(NER),但關(guān)鍵創(chuàng)新在于將本體中的類別信息(如“公司”、“金融產(chǎn)品”、“人物”)融入到模型的訓(xùn)練中。我們構(gòu)建了一個本體感知的標(biāo)簽體系,并在輸入層通過特殊標(biāo)記或特征嵌入的方式,讓模型“感知”到當(dāng)前文本片段可能涉及的金融概念,從而提升了對專業(yè)術(shù)語和歧義實(shí)體的識別準(zhǔn)確率。
2. 關(guān)系與屬性的聯(lián)合抽取:
針對金融文本中實(shí)體關(guān)系緊密交織的特點(diǎn),我們沒有將關(guān)系抽取和屬性抽取完全割裂。我們設(shè)計(jì)了一個基于指針網(wǎng)絡(luò)的聯(lián)合抽取模型。該模型以識別出的實(shí)體對和上下文為輸入,同時(shí)預(yù)測關(guān)系類型和屬性值。這種方法能有效捕捉關(guān)系與屬性之間的內(nèi)在聯(lián)系,例如,“A公司控股B公司(關(guān)系)”與“持股比例(屬性)”常常同時(shí)出現(xiàn),聯(lián)合建模減少了誤差傳播。
3. 基于規(guī)則與一致性校驗(yàn)的后處理:
純端到端的深度學(xué)習(xí)模型在處理復(fù)雜金融邏輯時(shí)仍有不足。我們引入了一個后處理模塊,利用本體中定義的概念不相交性、屬性值域等約束,以及人工的少量高質(zhì)量規(guī)則,對自動抽取的結(jié)果進(jìn)行校驗(yàn)和修正。例如,檢查“成立日期”屬性的格式是否符合時(shí)間規(guī)范,或根據(jù)“是...的子公司”關(guān)系推斷并補(bǔ)全反向的“擁有子公司”關(guān)系,確保圖譜的邏輯一致性。
4. 迭代式知識融合與自增強(qiáng):
這是我們的核心優(yōu)化策略。初始構(gòu)建的圖譜難免存在噪聲和缺失。我們設(shè)計(jì)了一個輕量級的迭代流程:將首輪抽取結(jié)果中置信度較高的部分(如高概率實(shí)體和關(guān)系)作為“準(zhǔn)知識”,反哺給后續(xù)的抽取模型。在第二輪處理時(shí),模型能夠參考這些已存在的知識來理解上下文,從而提升對模糊提及或長距離依賴關(guān)系的抽取能力。這種“抽取-融合-再抽取”的閉環(huán),有效實(shí)現(xiàn)了系統(tǒng)的自我增強(qiáng)。
雖然本次評測聚焦金融,但我們的方法框架具有向其他垂直領(lǐng)域推廣的普適價(jià)值。
###
在CCKS2020評測中取得第五名,是對我們提出的“本體引導(dǎo)、聯(lián)合抽取、規(guī)則校驗(yàn)、迭代增強(qiáng)”技術(shù)路線的有效驗(yàn)證。該方法平衡了數(shù)據(jù)驅(qū)動與知識驅(qū)動的優(yōu)勢,在保證自動化程度的顯著提升了金融知識圖譜構(gòu)建的準(zhǔn)確性與一致性。其模塊化的設(shè)計(jì)理念和融合核心思想,為在更多數(shù)據(jù)有限但知識豐富的垂直領(lǐng)域,進(jìn)行高效、可靠的知識圖譜自動化構(gòu)建,提供了可借鑒、可推廣的解決方案。結(jié)合大模型等新技術(shù),這一框架有望釋放出更大的潛力。
如若轉(zhuǎn)載,請注明出處:http://www.hnzzmjd.cn/product/17.html
更新時(shí)間:2026-01-19 14:34:06
PRODUCT