如何將不清晰的掃描版pdf轉爲清晰的pdf或word

   最近需要將一份很長的英文合同翻譯成中文,足足有80頁,o(╯□╰)o,雖然近期一直在強化英語口語,但英語以及翻譯並不是自己的強項,加之合同內容專業性很強,面對這個時間緊任務重的差事真的是頭大了。時間又緊迫,怎麼辦?因爲只是將翻譯內容拿給非專業的人看一看,不具備法律效力,所以只能先借助翻譯軟件翻譯個大概了。

   掃描版的pdf,沒法選擇複製粘貼,這一點很麻煩。那就用pdf閱讀器自帶的轉word功能吧,但實際操作效果發現識別成功率很低,錯誤亂碼非常多。這個時候查到一種叫OCR(Optical Character Recognition)光學字符識別的功能,對於識別掃描版dpf貌似比較有效。網上找了一款叫迅捷pdf轉換器的軟件,但是非VIP會員最多隻能利用OCR轉換5頁。實際效果不確定的情況下不想交錢辦VIP,於是先借助別的工具把80頁的pdf拆分成5頁一份的十幾個pdf文檔,這類工具比較多,也有在線拆分的,非常方便。之後把拆分後的十幾個pdf文檔用迅捷pdf轉換器的掃描pdf轉word(OCR)功能進行轉換,發現轉換效果確實有提升,少了很多的亂碼。

   於是開開心心地準備用word2013自帶的翻譯功能進行英譯漢轉換(可以自行百度如何在word中設置翻譯選項),但是竟然失敗了。what the F***。


  仔細檢查發現,迅捷pdf轉換器識別率雖然確實很高,但有個問題就是生成的word文檔中全都是一個個的文本框。問題應該出在這裏。

 

  這個就有點蛋疼了,因爲常規操作很難同時提取多個文本框的內容,網上搜到一種提取辦法是在查找中利用通配符「?」進行全選(https://jingyan.baidu.com/article/ceb9fb10da00d98cac2ba065.html),但試驗發現這種辦法對去文字量很少的文本框或許還可以,而當文字量很多的時候非常耗時,也很容易卡死。因爲它是按照一個個字符去選擇的。

   另一種方法是在word文檔中全選,然後複製,打開寫字板,在寫字板進行粘貼。然後再在寫字板裏複製,再粘貼到word中。這樣也會存在一個問題:就時行與行之間都多了一個換行符。且排序變得錯亂毫無規律。


 繼續再想辦法吧,突然靈光一現:那我要是把這份帶很多文本框的word文檔先轉爲pdf,之後再將該pdf轉回爲word,是不是就可以去掉所有的文本框了呢?

 實際操作了一下,果然有效。沒有多餘的文本框,沒有多餘的空格回車等等,看上去幹淨清爽多了。

注意,這一步如果使用在線pdf轉word,可能會出現生成的word文檔每一行後面都有換行符,這樣會降低自動翻譯的準確率。實測使用Adobe Acrobat DC將pdf轉成word的話,會顯著減少每行最後換行符的數量。


                                  轉換後得到的pdf文檔



                          pdf再次轉換後得到的word文檔


原始掃描版pdf文檔


於是到這一步,已經可以得到比較清晰的pdf版或word版文檔了,如果前面利用OCR識別成功率很高的話,最終效果還是不錯的。