免費線上 OCR PDF — 從掃描 PDF 提取文字

使用 OCR（光學字元辨識）從掃描 PDF、圖片型文件和照片中提取文字。支援英文、繁體中文、簡體中文、西班牙文等 12 種以上語言。所有處理都在瀏覽器中完成。

將一個 PDF 拖放到這裡或從裝置選取 — 僅限 PDF 選擇 PDF

尚未選擇 PDF。加入一個 PDF 以透過 OCR 提取文字。

OCR 語言

尚未載入 PDF

如何使用 OCR 從掃描 PDF 提取文字

OCR（光學字元辨識）從圖片中讀取文字——將文字圖片轉換為可編輯、可搜尋的文字。這對掃描文件、傳真頁面、印刷品照片和相機拍攝的 PDF 非常重要。

OCR 最適合：200+ DPI 的清晰掃描、乾淨的印刷文字、標準字型、高對比度文件，以及 Tesseract 支援的拉丁/西里爾/CJK 字元集語言。

OCR 較難處理：手寫文字、裝飾性或草書字型、低解析度圖片、嚴重背景雜訊、傾斜頁面和複雜背景上的文字。銳利且光線充足的掃描會明顯改善結果。

此工具會自動檢查 PDF 是否已包含可選取文字。如果有，你可以使用即時文字提取路徑，完全跳過較慢的 OCR 引擎。如果 PDF 只有圖片，OCR 就是正確的選擇。這種雙重設計確保你永遠不會在數位產生的 PDF 上浪費時間執行 OCR，但在需要時隨時可以使用 OCR。

Tesseract OCR 支援 12 種以上語言，包括英文、繁體中文、簡體中文、西班牙文、葡萄牙文、法文、德文、俄文、阿拉伯文、日文、韓文、義大利文、印尼文、荷蘭文、泰文和越南文。選擇文件的主要語言以獲得最佳準確度。對於多語言文件，可分別對每種語言執行 OCR 並比較結果。

你的 PDF 會留在瀏覽器中。OCR 完全在你的裝置上執行，使用 Tesseract.js（編譯為 WebAssembly）。PDF2atom 不會上傳、儲存、檢查或分析你的文件與提取文字。無伺服器端 OCR、無 API 呼叫、無第三方文字處理。

執行 OCR 時 PDF 會上傳嗎？

不會。OCR 完全在瀏覽器中執行，使用 Tesseract.js 編譯為 WebAssembly。PDF2atom 不會收到你的 PDF 或提取的文字。

OCR 需要多長時間？

Tesseract.js 首次載入約需 4-6 秒，之後每頁約需 5-20 秒，視內容複雜度和裝置效能而定。在現代筆電上，5 頁掃描文件通常可在 2 分鐘內完成。

OCR 支援哪些語言？

Tesseract 支援英文、繁體中文、簡體中文、西班牙文、葡萄牙文、法文、德文、俄文、阿拉伯文、日文、韓文、義大利文、印尼文、荷蘭文、泰文和越南文。選擇與文件相符的主要語言以獲得最佳準確度。

OCR 可以讀取手寫文字嗎？

Tesseract 針對印刷文字最佳化。手寫辨識能力有限，通常會產生不可靠的結果。清晰的機器印刷文字和標準字型效果最佳。

如果 PDF 已有可選取文字怎麼辦？

此工具會自動偵測可選取文字，並提供快速提取路徑，完全跳過 OCR。如果可選取文字有編碼問題或字元錯誤，你仍可選擇執行完整 OCR。

OCR 適用於密碼保護的 PDF 嗎？

完整密碼鎖定的 PDF 需要先使用你知道的密碼解鎖。PDF2atom 不提供破解或繞過密碼功能。

什麼掃描品質能獲得最佳 OCR 結果？

200-300 DPI 的掃描、良好的對比度和正確的對齊會產生最佳結果。傾斜、模糊或低對比度的頁面會明顯降低準確度。