良心了!百度終於開源這款神器,GitHub分分鐘Star 6k...

一、導讀

如果你是OCR方向的工程師,你一定需要知道這個OCR開源項目:PaddleOCR

先看下PaddleOCR自今年開源以來,短短几個月在GitHub上的表現:

  • 7月,8.6M超輕量模型發佈,GitHub Trending 全球趨勢榜日榜第一。

  • 8月,開源CVPR2020頂會SOTA算法,再上GitHub趨勢榜單!

  • 9月,發佈PP-OCR算法,開源3.5M超超輕量模型,再下Paperswithcode 趨勢榜第一

  • 10月28日再登GitHub Trending日榜

有圖有真相,這個含金量,廣大的Github開發者們自然懂,目前,項目累計Star數量已超過6K,並且仍然持續增長,這樣的成績到底是如何做到的?讓小編帶你一探究竟。

我們先看repo裏面的特性,確實是乾貨滿滿,直接看官方介紹:

數量上,這次PaddleOCR一口氣發佈了三個系列模型,滿足移動端、服務器端各種場景需求。而且,多語言也妥妥安排上了,全部訓練代碼和模型毫無保留開源。其中3.5M超輕量文字識別模型,堪稱目前業界開源的最輕量OCR模型了。

質量上,如此輕量的模型,效果有保障嗎?不看廣告,直接看療效。

先看幾個常見的通用場景識別效果:

火車票、表格、金屬銘牌、翻轉圖片,外語都是妥妥的

3.5M的模型能達到這個識別精度,絕對是良心之作了!

傳送門:

Github:https://github.com/PaddlePaddle/PaddleOCR

**論文下載鏈接:**https://arxiv.org/abs/2009.09941

二、快速體驗PaddleOCR的3.5M超輕量OCR模型
  • PC端快速嘗試:(打開網頁,選一張圖片,即可實時看到結果)

https://www.paddlepaddle.org.cn/hub/scene/ocr

  • 手機端App安裝體驗

PaddleOCR在百度大腦EasyEdge上開放了文字識別APP demo。

示例效果如下(可以在github首頁找到下載二維碼)

三、多個開源repo測試對比

簡單對比一下目前主流OCR方向開源repo的核心能力:

從性能指標來看:

  • 針對OCR實際應用場景,包括合同,車牌,銘牌,火車票,化驗單,表格,證書,街景文字,名片,數碼顯示屏等,收集的300張圖像,每張圖平均有17個文本框,PaddleOCR的F1-Score超過0.5,這個性能已經很不錯了。

從功能完備來看:

  • 預訓練模型大小:EasyOCR目前暫無超輕量模型,chineseocr_lite最新的模型是4.7M左右,而PaddleOCR提供的3.5M無疑是目前業界已知最輕量的

  • PIP安裝:目前僅PaddleOCR和EasyOCR支持。

  • 自定義訓練:實際業務場景中,預訓練模型往往不能滿足需求,對於自定義訓練和模型Finetuning,chineseocr_lite和EasyOCR都是不支持的

  • 部署方面:EasyOCR模型較大不適合端側部署,Chineseocr_lite和PaddleOCR都具備端側部署能力。

開發者可以根據自己的實際需求,選擇適合自己的開源方案。

對於PaddleOCR 3.5MB的超輕量模型,是如何做到的,repo中也給出瞭解釋。

3.5M超輕量模型應用了一套超輕量OCR系統PP-OCR,主要由DB文本檢測、檢測框矯正和CRNN文本識別三部分組成。該系統從骨幹網絡選擇和調整、預測頭部的設計、數據增強、學習率變換策略、正則化參數選擇、預訓練模型使用以及模型自動裁剪量化8個方面,採用19個有效策略,對各個模塊的模型進行效果調優和瘦身。其中,飛槳模型壓縮庫PaddleSlim爲PaddleOCR超輕量化模型的實現提供了核心的技術支撐。從超輕量模型8.1M的壓縮到3.5M,模型大小降低了56.79%,其中檢測模型速度提升21%,而且整體模型精度還有提升。

除了3.5M超輕量OCR模型,PaddleOCR提供了多語言預訓練模型(英、德、法、韓、日),支持自定義訓練和豐富的部署方式。

如果覺得這個項目還不錯,支持開源工作,也希望您可以star關注哦

想了解更多,歡迎加入PaddleOCR技術交流羣,第一時間獲得技術支持。

注:小編髮現現在已經加到6羣了,開發者朋友趕緊上車啊。

掃碼添加Paddle小姐姐,通過驗證後回覆【OCR】即可獲得進羣邀請!

招募活動預告

11月7日,百度AI快車道將走進成都,屆時將有PaddleOCR研發團隊空降成都,歡迎OCR方向成都的開發者們報名【開源框架高階營】,我們相聚成都金開國際公寓-致誠廳。後續的每一週我們還將走進西安(11月14日)、武漢、廈門、北京等城市。

另外,對NLP常見任務、文心(ERNIE)語義理解技術與平臺介紹,及優化技巧、數據不均衡、無監督數據利用、文本編碼歡迎參與EasyDL零門檻模型訓練營,文心(ERNIE)的講師團隊將在致和廳等你!

更多飛槳的相關內容,請參閱以下內容。

官網地址:https://www.paddlepaddle.org.cn

飛槳PaddleOCR項目地址:

GitHub: https://github.com/PaddlePaddle/PaddleOCR

Gitee: https://gitee.com/paddlepaddle/PaddleOCR

飛槳PaddleSlim項目地址:

GitHub: https://github.com/PaddlePaddle/PaddleSlim

Gitee: https://gitee.com/paddlepaddle/PaddleSlim

PP-OCR技術文章:

論文下載鏈接:https://arxiv.org/abs/2009.09941

點擊閱讀原文報名,快到成都金開國際公寓參與【開源框架高階營】活動