手機端文檔識別OCR識別技術

手機端文字識別OCR識別文檔識別

中華文明五千年,五十六個民族,積澱了數量龐大的文化遺產,而大部分是以書籍的形式保存下來。但由此帶來一個難題:紙質的書籍歷經滄桑,在加上後續人們一遍遍的翻閱,書籍多有破損,甚至有缺失。像戰爭年代還會有批量書籍的毀損,讓人甚是惋惜。爲了更好的保存這些先人留下的文化遺產,文通科技特推出了民族語言文字識別技術。

識別過程是:利用掃描儀獲取書籍文字的圖像(TIFF JPEG BMP PNG 圖片PDF等),然後經過文字識別技術和版面分析,對圖片上的文字做輸出(支持導出TXT,RTF,EXCEL,雙層PDF或純文本PDF)。民族語言文字識別支持藏文、維吾爾文、 阿拉伯文、哈薩克文、柯爾克孜文、中文、 日文、 韓文等;對於採集的圖片,該文字識別軟件支持糾偏、去污、旋轉、裁切,橫排文本、豎排文本、表格、圖片等多種格式。

Wintone:保護文化遺產—民族語言文字識別

據悉,文檔識別的基礎是OCR識別原理,通過對文字的亮暗檢測,並且與字符庫進行對比,從而判斷是哪個文字。並作輸出。基於開放式的XML數據結構,可以對數據進行擴充和再定義。支持第三方開發廠商方便地進行文檔數據的轉換、遷移和再利用。文字識別軟件採用UNICODE國際編碼標準。系統可在一個統一的平臺下,支持Windows xp ;windows 7; windows 8; windows vista ;windows 10;windows server 2003;windows server 2008;windows server 2012;文字識別技術現已成功應用於電子圖書館。

技術支持:見賬號