光學字符識別(OCR)是一種將印刷材料轉換成易于編輯和存儲的文本或文字處理文件的過程。該技術使此類材料的存儲空間比硬拷貝材料少得多。OCR技術對信息的存儲方式產生了巨大的影響,共享和編輯。在光學字符識別之前,如果有...
光學字符識別(OCR)是一種將印刷材料轉換成易于編輯和存儲的文本或文字處理文件的過程。該技術使此類材料的存儲空間比硬拷貝材料少得多。OCR技術對信息的存儲方式產生了巨大的影響,共享和編輯。在光學字符識別之前,如果有人想把一本書變成文字處理文件,每一頁都必須逐字打印。

光學字符識別(OCR)是一種將打印材料轉換成文本或文字處理文件的過程,這些文件可以方便地編輯和存儲OCR技術需要硬件和軟件兩方面的支持。此外,復雜的OCR系統還需要在計算機中增加一塊電路板來完成這一過程。光學掃描儀掃描頁面上的文本,然后分解字體變成一系列的點叫做位圖。軟件可以讀取最常見的字體并區分行的開始和結束位置。然后將此位圖轉換為計算機文本。而光學字符近年來,識別技術取得了巨大的進步,但在識別手寫體或與手寫體相似的字體方面,它的性能并不總是很好。銀行業中有一些系統使用OCR技術來讀取手寫支票上的金額,配合計算機讀取路由和賬號要想了解OCR的威力,不妨看看現實世界中的一個例子。想象一下,一個警察局把所有的犯罪記錄都存儲在巨大的文件柜中。雖然掃描數百萬頁是一項昂貴而耗時的工作,但其好處是巨大的例如,一旦OCR系統將頁面轉換成計算機可讀文本,偵探就可以在幾秒鐘內搜索整個歷史記錄。手動查找特定記錄可能不太困難,但想象一下,一個偵探試圖搜索所有在其上犯下的罪行在8:00和8:30之間的某個交叉點。這個例子只觸及了可搜索文本功能的表面,這只是許多公司和機構花費數百萬美元來OCR其遺留數據的原因之一。