在大數據時(shí)代,高質(zhì)量的數據已經(jīng)成為個(gè)政府、企業(yè)、研究機構和社會(huì )的重要資源與財富。但是隨 著(zhù)數據規模的持續高速增長(cháng),人們在獲取更加豐富、多樣的數據同時(shí),也必須面對數據質(zhì)量管理方面的 一系列全新挑戰,因此亟需研究能夠適應海量、動(dòng)態(tài)、多源、異構數據并貫穿整個(gè)數據生命周期的數據 質(zhì)量管理,特別是以用戶(hù)需求為中心的差異化數據質(zhì)量保證機制。本項目擬研究一種面向用戶(hù)自定義需 求的通用化數據質(zhì)量管理機制,重點(diǎn)研究具有通用性和可伸縮性的數據數質(zhì)量管理機制與方法,使其能 夠柔性適配不同領(lǐng)域、不同要求的數據質(zhì)量標準,支持用戶(hù)對個(gè)性化數據質(zhì)量要求的靈活、非過(guò)程化描 述;對大規模動(dòng)態(tài)復雜數據,擬采用數據挖掘技術(shù)從底層數據出發(fā)生成各種與數據質(zhì)量相關(guān)的數據特征 表述和度量,并從高層數據質(zhì)量定義對數據進(jìn)行約束檢驗和數據清洗,最終提供諸如關(guān)系數據庫中的約 束條件保證的數據質(zhì)量保證。