從pdf中讀取表格數據

目標:從pdf文件中讀取表格數據,每頁一個大表格。佈局

嘗試:.net

一、spire.pdf,能夠快速讀取pdf文本和圖片,但讀取的表格數據徹底混亂,基本沒法還原。code

二、iTextSharp 7,碰到兩個問題:沒法讀取中文內容(網上的解決方案都是針對5版本的),沒法完整解析獲取表格內容(只是單純分爲塊)圖片

解決方案:https://www.codeproject.com/Tips/1262815/Extract-Tables-from-PDFsip

讀取表格內容(非規則),結果存儲與DataTable的單元格中,雖然佈局與原表格還存在較大差別,但表格拆分很準確。get

可以正確解析中文。pdf

源代碼下載下載