更新時(shí)間:2021-06-25 來源:黑馬程序員 瀏覽量:
Tesseract是一個開源的OCR庫,是目前公認(rèn)的最優(yōu)秀、最精確的開源OCR系統(tǒng),具有精準(zhǔn)度高、靈活性高等特點(diǎn)。它不僅可以通過訓(xùn)練識別出任何字體(只要字體的風(fēng)格保持不變即可),而且可以識別出任何Unicode字符。
Tesseract支持60種以上的語言,它提供了一個引擎和命令行工具。要想在Windows系統(tǒng)下使用Tesseract,需要先安裝Tesseract-OCR引擎,可以從網(wǎng)址https://github.com/UB-Mannheim/tesseract/wiki 進(jìn)行下載,如下圖所示。
該網(wǎng)址提供的下載版本為V5.0.0,下載完成后,雙擊安裝文件,按照默認(rèn)設(shè)置進(jìn)行安裝。 默認(rèn)情況下,安裝文件會為其配置系統(tǒng)環(huán)境變量,以指向安裝目錄。這樣,就可以在任意目錄下使用tesseract命令運(yùn)行。如果沒有配置環(huán)境變量,可以手動進(jìn)行設(shè)置,默認(rèn)安裝目錄為:
C:\Program Files\Tesseract-OCR
打開命令行窗口,輸人tesseract命令進(jìn)行驗(yàn)證。如果安裝成功,則會輸出如下圖所示的信息。