在互聯(lián)網(wǎng)大數據時(shí)代,互聯(lián)網(wǎng)信息呈爆炸式增長(cháng),其中蘊含著(zhù)具有重要價(jià)值的命名實(shí)體和事件等信息,而這 些信息多包含在非結構化自由文本中,例如臨床電子病歷、標書(shū)文件、藥品說(shuō)明書(shū)、經(jīng)濟金融證券數據等,通過(guò) 現有技術(shù)自動(dòng)抽取非結構化自由文本中的有用信息,以此實(shí)現自由文本的結構化,具有巨大商業(yè)價(jià)值。
項目融合規則與深度學(xué)習方法,結合實(shí)驗室機器閱讀理解、小樣本強化學(xué)習等方面的相關(guān)研究成果,開(kāi)發(fā)了 智能信息抽取工具,該工具可以應用于互聯(lián)網(wǎng)泛文本結構化領(lǐng)域。
項目開(kāi)發(fā)的智能信息抽取工具能長(cháng)期穩定運行,目前已穩定運行兩年以上,系統可以針對不同領(lǐng)域的自由文 本數據進(jìn)行信息抽取結構化,并將結構化后的各字段信息通過(guò)可視化界面進(jìn)行展示,用戶(hù)界面滿(mǎn)足現場(chǎng)的應用要求。