手機端文檔識別OCR識別技術

時間 2021-01-15 標籤 OCR算法 OCR識別 api android 文字識別

手機端文字識別OCR識別文檔識別

中華文明五千年，五十六個民族，積澱了數量龐大的文化遺產，而大部分是以書籍的形式保存下來。但由此帶來一個難題：紙質的書籍歷經滄桑，在加上後續人們一遍遍的翻閱，書籍多有破損，甚至有缺失。像戰爭年代還會有批量書籍的毀損，讓人甚是惋惜。爲了更好的保存這些先人留下的文化遺產，文通科技特推出了民族語言文字識別技術。

識別過程是：利用掃描儀獲取書籍文字的圖像（TIFF JPEG BMP PNG 圖片PDF等），然後經過文字識別技術和版面分析，對圖片上的文字做輸出（支持導出TXT,RTF,EXCEL,雙層PDF或純文本PDF）。民族語言文字識別支持藏文、維吾爾文、阿拉伯文、哈薩克文、柯爾克孜文、中文、日文、韓文等；對於採集的圖片，該文字識別軟件支持糾偏、去污、旋轉、裁切，橫排文本、豎排文本、表格、圖片等多種格式。

據悉，文檔識別的基礎是OCR識別原理，通過對文字的亮暗檢測，並且與字符庫進行對比，從而判斷是哪個文字。並作輸出。基於開放式的XML數據結構，可以對數據進行擴充和再定義。支持第三方開發廠商方便地進行文檔數據的轉換、遷移和再利用。文字識別軟件採用UNICODE國際編碼標準。系統可在一個統一的平臺下，支持Windows xp ；windows 7； windows 8； windows vista ；windows 10；windows server 2003；windows server 2008；windows server 2012；文字識別技術現已成功應用於電子圖書館。

技術支持：見賬號