目標:從pdf文件中讀取表格數據,每頁一個大表格。佈局
嘗試:.net
一、spire.pdf,能夠快速讀取pdf文本和圖片,但讀取的表格數據徹底混亂,基本沒法還原。code
二、iTextSharp 7,碰到兩個問題:沒法讀取中文內容(網上的解決方案都是針對5版本的),沒法完整解析獲取表格內容(只是單純分爲塊)圖片
解決方案:https://www.codeproject.com/Tips/1262815/Extract-Tables-from-PDFsip
讀取表格內容(非規則),結果存儲與DataTable的單元格中,雖然佈局與原表格還存在較大差別,但表格拆分很準確。get
可以正確解析中文。pdf
源代碼下載下載