免費線上 OCR PDF — 從掃描 PDF 提取文字
使用 OCR(光學字元辨識)從掃描 PDF、圖片型文件和照片中提取文字。支援英文、繁體中文、簡體中文、西班牙文等 12 種以上語言。所有處理都在瀏覽器中完成。
尚未選擇 PDF。加入一個 PDF 以透過 OCR 提取文字。
Selectable text found
尚未載入 PDF
OCR 完成
如何使用 OCR 從掃描 PDF 提取文字
- 選擇你的 PDF:檔案會在瀏覽器中讀取,不會上傳到 PDF2atom。
- 選擇 OCR 語言:選擇與文件文字相符的語言。英文是預設值,對大多數拉丁字母文件效果良好。
- 開始 OCR:每個頁面會渲染為高解析度圖片,然後由 Tesseract OCR 處理。如果 PDF 已有可選取文字,你可以跳過 OCR 使用快速提取。
- 複製或下載:查看提取的文字,複製到剪貼簿或下載 TXT 檔案。
OCR 能做什麼與不能做什麼
OCR(光學字元辨識)從圖片中讀取文字——將文字圖片轉換為可編輯、可搜尋的文字。這對掃描文件、傳真頁面、印刷品照片和相機拍攝的 PDF 非常重要。
OCR 最適合:200+ DPI 的清晰掃描、乾淨的印刷文字、標準字型、高對比度文件,以及 Tesseract 支援的拉丁/西里爾/CJK 字元集語言。
OCR 較難處理:手寫文字、裝飾性或草書字型、低解析度圖片、嚴重背景雜訊、傾斜頁面和複雜背景上的文字。銳利且光線充足的掃描會明顯改善結果。
OCR 與可選取文字 — 雙路徑提取
此工具會自動檢查 PDF 是否已包含可選取文字。如果有,你可以使用即時文字提取路徑,完全跳過較慢的 OCR 引擎。如果 PDF 只有圖片,OCR 就是正確的選擇。這種雙重設計確保你永遠不會在數位產生的 PDF 上浪費時間執行 OCR,但在需要時隨時可以使用 OCR。
支援的語言
Tesseract OCR 支援 12 種以上語言,包括英文、繁體中文、簡體中文、西班牙文、葡萄牙文、法文、德文、俄文、阿拉伯文、日文、韓文、義大利文、印尼文、荷蘭文、泰文和越南文。選擇文件的主要語言以獲得最佳準確度。對於多語言文件,可分別對每種語言執行 OCR 並比較結果。
PDF OCR 的常見用途
- 將掃描的合約、協議和法律文件轉換為可搜尋文字。
- 數位化印刷書籍、文章和研究論文,以便搜尋和引用。
- 從掃描的發票、收據和表單中提取資料。
- 使圖片型政府表格和申請文件變為可編輯。
- 在執行 OCR 前使用 PDF 頁數統計 檢查文件結構。
- OCR 完成後使用 PDF 轉 AI 提示詞 準備 AI 輸入。
隱私與安全
你的 PDF 會留在瀏覽器中。OCR 完全在你的裝置上執行,使用 Tesseract.js(編譯為 WebAssembly)。PDF2atom 不會上傳、儲存、檢查或分析你的文件與提取文字。無伺服器端 OCR、無 API 呼叫、無第三方文字處理。
常見問題
執行 OCR 時 PDF 會上傳嗎?
不會。OCR 完全在瀏覽器中執行,使用 Tesseract.js 編譯為 WebAssembly。PDF2atom 不會收到你的 PDF 或提取的文字。
OCR 需要多長時間?
Tesseract.js 首次載入約需 4-6 秒,之後每頁約需 5-20 秒,視內容複雜度和裝置效能而定。在現代筆電上,5 頁掃描文件通常可在 2 分鐘內完成。
OCR 支援哪些語言?
Tesseract 支援英文、繁體中文、簡體中文、西班牙文、葡萄牙文、法文、德文、俄文、阿拉伯文、日文、韓文、義大利文、印尼文、荷蘭文、泰文和越南文。選擇與文件相符的主要語言以獲得最佳準確度。
OCR 可以讀取手寫文字嗎?
Tesseract 針對印刷文字最佳化。手寫辨識能力有限,通常會產生不可靠的結果。清晰的機器印刷文字和標準字型效果最佳。
如果 PDF 已有可選取文字怎麼辦?
此工具會自動偵測可選取文字,並提供快速提取路徑,完全跳過 OCR。如果可選取文字有編碼問題或字元錯誤,你仍可選擇執行完整 OCR。
OCR 適用於密碼保護的 PDF 嗎?
完整密碼鎖定的 PDF 需要先使用你知道的密碼解鎖。PDF2atom 不提供破解或繞過密碼功能。
什麼掃描品質能獲得最佳 OCR 結果?
200-300 DPI 的掃描、良好的對比度和正確的對齊會產生最佳結果。傾斜、模糊或低對比度的頁面會明顯降低準確度。