免費線上從圖片 PDF 提取文字

使用 OCR 從純圖片 PDF、掃描文件和照片型檔案中提取文字。專為頁面是圖片而非可選取文字的 PDF 設計。所有處理都在瀏覽器中完成。

將圖片型 PDF 拖放到這裡或從裝置選取 — 掃描 PDF、照片型 PDF、純圖片 PDF 選擇 PDF

尚未選擇 PDF。加入掃描或圖片型 PDF 以提取文字。

OCR 語言

尚未載入 PDF

如何從圖片型 PDF 提取文字

圖片型 PDF 是指每個頁面都是一張圖片的 PDF — 例如文件照片、掃描器掃描件或傳真轉換的 PDF。雖然螢幕上可以看到文字，但電腦只能看到像素。一般的文字提取工具無法讀取這些檔案，因為 PDF 內部沒有可選取的文字物件。

此工具使用 OCR（光學字元辨識）讀取每頁的像素，將其轉換為可編輯、可搜尋的文字。專為 PDF 頁面是圖片而非數位文字的情況設計。

Tesseract OCR 支援 12 種以上語言，包括英文、繁體中文、簡體中文、西班牙文、葡萄牙文、法文、德文、俄文、阿拉伯文、日文、韓文、義大利文、印尼文、荷蘭文、泰文和越南文。選擇文件的主要語言以獲得最佳準確度。

你的 PDF 會留在瀏覽器中。OCR 完全在你的裝置上執行，使用 Tesseract.js 編譯為 WebAssembly。PDF2atom 不會上傳、儲存、檢查或分析你的文件與提取文字。無伺服器端處理、無 API 呼叫。

提取文字時圖片 PDF 會上傳嗎？

不會。OCR 完全在瀏覽器中執行，使用 Tesseract.js。PDF2atom 不會收到你的文件或提取的文字。

如何知道我的 PDF 是圖片型的？

嘗試在 PDF 閱讀器中選取文字。如果無法選取或高亮個別字詞，則 PDF 是圖片型的。也可以檢查 — 如果 Ctrl+F 找不到可見的文字，則 PDF 需要 OCR。

如果圖片 PDF 也有一些可選取文字怎麼辦？

此工具會自動檢查可選取文字。如果找到，會同時提供快速文字提取和完整 OCR — 你可以選擇使用哪個路徑。

圖片 PDF 的 OCR 準確度如何？

準確度取決於掃描品質。200-300 DPI 的掃描和良好的對比度會產生最佳結果。傾斜、模糊或低對比度的頁面會降低準確度。

可以讀取圖片 PDF 中的手寫文字嗎？

Tesseract 針對印刷文字最佳化。手寫辨識能力有限，通常不可靠。

密碼保護的圖片 PDF 可以使用嗎？

密碼鎖定的 PDF 需要先使用你知道的密碼解鎖。PDF2atom 不提供破解或繞過密碼功能。

提取需要多長時間？

Tesseract.js 首次載入約需 4-6 秒，之後每頁約需 5-20 秒。5 頁掃描文件通常可在 2 分鐘內完成。