簡(jiǎn)介: 基于OCR的數據自動(dòng)采集技術(shù)擬利用OCR技術(shù)對紙質(zhì)文檔進(jìn)行自動(dòng)數字化。OCR(Optical Character Recognition,光學(xué)字符識別)是指電子設備(例如掃描儀或數碼相機)檢查紙上打印的字符,通過(guò)檢測暗、亮的模式確定其形狀,然后用字符識別方法將形狀翻譯成計算機文字的過(guò)程;即,針對印刷體字符,采用光學(xué)的方式將紙質(zhì)文檔中的文字轉換成為黑白點(diǎn)陣的圖像文件,并通過(guò)識別軟件將圖像中的文字轉換成文本格式,供文字處理軟件進(jìn)一步編輯加工的技術(shù)。
詳細內容
基于OCR的數據自動(dòng)采集技術(shù)擬利用OCR技術(shù)對紙質(zhì)文檔進(jìn)行自動(dòng)數字化。OCR(Optical Character Recognition,光學(xué)字符識別)是指電子設備(例如掃描儀或數碼相機)檢查紙上打印的字符,通過(guò)檢測暗、亮的模式確定其形狀,然后用字符識別方法將形狀翻譯成計算機文字的過(guò)程;即,針對印刷體字符,采用光學(xué)的方式將紙質(zhì)文檔中的文字轉換成為黑白點(diǎn)陣的圖像文件,并通過(guò)識別軟件將圖像中的文字轉換成文本格式,供文字處理軟件進(jìn)一步編輯加工的技術(shù)。