免費線上從圖片 PDF 提取文字

使用 OCR 從純圖片 PDF、掃描文件和照片型檔案中提取文字。專為頁面是圖片而非可選取文字的 PDF 設計。所有處理都在瀏覽器中完成。

將圖片型 PDF 拖放到這裡 或從裝置選取 — 掃描 PDF、照片型 PDF、純圖片 PDF 選擇 PDF

尚未選擇 PDF。加入掃描或圖片型 PDF 以提取文字。

    尚未載入 PDF

    如何從圖片型 PDF 提取文字

    1. 選擇你的掃描或圖片 PDF:檔案會在瀏覽器中讀取,不會上傳到 PDF2atom。
    2. 選擇 OCR 語言:選擇與掃描文件中文字相符的語言。
    3. 開始 OCR 提取:每個頁面圖片由 Tesseract OCR 處理。如果 PDF 剛好有可選取文字,也提供快速提取路徑。
    4. 複製或下載提取的文字:查看結果,複製到剪貼簿或另存為 TXT。

    什麼是「圖片型 PDF」

    圖片型 PDF 是指每個頁面都是一張圖片的 PDF — 例如文件照片、掃描器掃描件或傳真轉換的 PDF。雖然螢幕上可以看到文字,但電腦只能看到像素。一般的文字提取工具無法讀取這些檔案,因為 PDF 內部沒有可選取的文字物件。

    此工具使用 OCR(光學字元辨識)讀取每頁的像素,將其轉換為可編輯、可搜尋的文字。專為 PDF 頁面是圖片而非數位文字的情況設計。

    圖片型 PDF 的常見來源

    • 掃描器輸出 — 大多數桌面和辦公室掃描器預設產生純圖片 PDF。
    • 手機相機掃描 — 拍攝文件的應用程式通常儲存為圖片 PDF。
    • 傳真轉 PDF 服務 — 接收的傳真轉換為 PDF 通常只有圖片。
    • 截圖儲存為 PDF — 嵌入 PDF 頁面的螢幕截圖沒有文字圖層。
    • 舊版存檔文件 — 2000 年之前的文件管理系統通常將掃描件儲存為圖片 PDF。

    支援的語言

    Tesseract OCR 支援 12 種以上語言,包括英文、繁體中文、簡體中文、西班牙文、葡萄牙文、法文、德文、俄文、阿拉伯文、日文、韓文、義大利文、印尼文、荷蘭文、泰文和越南文。選擇文件的主要語言以獲得最佳準確度。

    隱私與安全

    你的 PDF 會留在瀏覽器中。OCR 完全在你的裝置上執行,使用 Tesseract.js 編譯為 WebAssembly。PDF2atom 不會上傳、儲存、檢查或分析你的文件與提取文字。無伺服器端處理、無 API 呼叫。

    常見問題

    提取文字時圖片 PDF 會上傳嗎?

    不會。OCR 完全在瀏覽器中執行,使用 Tesseract.js。PDF2atom 不會收到你的文件或提取的文字。

    如何知道我的 PDF 是圖片型的?

    嘗試在 PDF 閱讀器中選取文字。如果無法選取或高亮個別字詞,則 PDF 是圖片型的。也可以檢查 — 如果 Ctrl+F 找不到可見的文字,則 PDF 需要 OCR。

    如果圖片 PDF 也有一些可選取文字怎麼辦?

    此工具會自動檢查可選取文字。如果找到,會同時提供快速文字提取和完整 OCR — 你可以選擇使用哪個路徑。

    圖片 PDF 的 OCR 準確度如何?

    準確度取決於掃描品質。200-300 DPI 的掃描和良好的對比度會產生最佳結果。傾斜、模糊或低對比度的頁面會降低準確度。

    可以讀取圖片 PDF 中的手寫文字嗎?

    Tesseract 針對印刷文字最佳化。手寫辨識能力有限,通常不可靠。

    密碼保護的圖片 PDF 可以使用嗎?

    密碼鎖定的 PDF 需要先使用你知道的密碼解鎖。PDF2atom 不提供破解或繞過密碼功能。

    提取需要多長時間?

    Tesseract.js 首次載入約需 4-6 秒,之後每頁約需 5-20 秒。5 頁掃描文件通常可在 2 分鐘內完成。