自然語(yǔ)言結構分析和機器翻譯是語(yǔ)言信息處理的關(guān)鍵技術(shù)和核心任務(wù)。自然語(yǔ)言是高度結構化和高 度歧義的。因此,面對高度歧義的自然語(yǔ)言,如何能夠在多項式時(shí)間內有效地進(jìn)行指數級結構化特征建 模是目前自然語(yǔ)言結構分析所面臨的主要問(wèn)題;而針對跨語(yǔ)言的多層次結構映射歧義,如何能夠在多項 式時(shí)間內有效地進(jìn)行基于多層次篇章語(yǔ)義結構映射的機器翻譯建模是機器翻譯研究進(jìn)一步發(fā)展亟待解決 的問(wèn)題。
本項目組多年來(lái)針對上述自然語(yǔ)言結構分析和統計機器翻譯中的國際熱點(diǎn)和前沿難題進(jìn)行了攻關(guān), 在句法語(yǔ)義結構分析、統計自然語(yǔ)言學(xué)習和統計機器翻譯等問(wèn)題上進(jìn)行了系統研究,提出了一系列針對 語(yǔ)言結構化特征建模、半監督依存句法分析和統計機器翻譯建模等關(guān)鍵技術(shù)和問(wèn)題的解決方案,取得了創(chuàng )新性研究成果。主要創(chuàng )新點(diǎn)體現在:
在自然語(yǔ)言結構分析方面,針對結構化特征建模問(wèn)題,提出了句法結構驅動(dòng)的卷積核函數群,用以捕捉自然語(yǔ)言表達結構上的多樣性、靈活性和歧義性,將語(yǔ)言學(xué)領(lǐng)域知識融入到統計機器學(xué)習算法設計中,有效解決了指數級自然語(yǔ)言結構化特征的多項式時(shí)間建模問(wèn)題,顯著(zhù)提高了一系列自然語(yǔ)言處理任務(wù)的準確率,促進(jìn)了統計自然語(yǔ)言學(xué)習等相關(guān)學(xué)科的研究進(jìn)展;利用半監督統計機器學(xué)習理論和深度學(xué)習算法,建立了半監督依存句法分析的新框架,為解決半監督依存分析有效特征選取和指數級特征的多 項式時(shí)間計算這兩個(gè)難題提供了核心技術(shù),顯著(zhù)提高了依存句法分析的準確率。
在統計機器翻譯研究方面,針對多層次篇章語(yǔ)義機構翻譯建模問(wèn)題,提出了同步樹(shù)序列替換文法和 相應的基于森林樹(shù)序列的句法翻譯模型,在不改變時(shí)間復雜度和翻譯速度的前提下,可學(xué)習到更優(yōu)化的 翻譯模型和搜索指數級增長(cháng)的解空間,為同時(shí)解決句法翻譯模型所面臨的句法分析錯誤和跨語(yǔ)言句法非同構兩大難題提供了有效的技術(shù)方案,顯著(zhù)提高了句法翻譯模型的描述能力和翻譯性能;較早開(kāi)展了統 計語(yǔ)義和篇章機器翻譯的研究,提出了篇章語(yǔ)義機器翻譯模型,取得階段性研究成果,抓住了學(xué)科發(fā)展前沿,為下一代機器翻譯技術(shù)的研究進(jìn)展做出了貢獻。
近5年,本項目組在該項研究中獲得NSFC 項目12項(包括重點(diǎn)項目1項、杰青項目1項和優(yōu)青項目 1 項 ) , 發(fā) 表SCI 源期刊論文12篇,CCF A類(lèi)國際會(huì )議論文15篇,CCF B類(lèi)國際會(huì )議論文 20篇,英文專(zhuān)著(zhù)2部,據Google Scholar統計論文引用將近3000次,在國內外有了很強的影響力 和話(huà)語(yǔ)權,處于領(lǐng)先地位。