免費線上從圖片 PDF 提取文字
使用 OCR 從純圖片 PDF、掃描文件和照片型檔案中提取文字。專為頁面是圖片而非可選取文字的 PDF 設計。所有處理都在瀏覽器中完成。
尚未選擇 PDF。加入掃描或圖片型 PDF 以提取文字。
Selectable text found
尚未載入 PDF
已從圖片 PDF 提取文字
如何從圖片型 PDF 提取文字
- 選擇你的掃描或圖片 PDF:檔案會在瀏覽器中讀取,不會上傳到 PDF2atom。
- 選擇 OCR 語言:選擇與掃描文件中文字相符的語言。
- 開始 OCR 提取:每個頁面圖片由 Tesseract OCR 處理。如果 PDF 剛好有可選取文字,也提供快速提取路徑。
- 複製或下載提取的文字:查看結果,複製到剪貼簿或另存為 TXT。
什麼是「圖片型 PDF」
圖片型 PDF 是指每個頁面都是一張圖片的 PDF — 例如文件照片、掃描器掃描件或傳真轉換的 PDF。雖然螢幕上可以看到文字,但電腦只能看到像素。一般的文字提取工具無法讀取這些檔案,因為 PDF 內部沒有可選取的文字物件。
此工具使用 OCR(光學字元辨識)讀取每頁的像素,將其轉換為可編輯、可搜尋的文字。專為 PDF 頁面是圖片而非數位文字的情況設計。
圖片型 PDF 的常見來源
- 掃描器輸出 — 大多數桌面和辦公室掃描器預設產生純圖片 PDF。
- 手機相機掃描 — 拍攝文件的應用程式通常儲存為圖片 PDF。
- 傳真轉 PDF 服務 — 接收的傳真轉換為 PDF 通常只有圖片。
- 截圖儲存為 PDF — 嵌入 PDF 頁面的螢幕截圖沒有文字圖層。
- 舊版存檔文件 — 2000 年之前的文件管理系統通常將掃描件儲存為圖片 PDF。
支援的語言
Tesseract OCR 支援 12 種以上語言,包括英文、繁體中文、簡體中文、西班牙文、葡萄牙文、法文、德文、俄文、阿拉伯文、日文、韓文、義大利文、印尼文、荷蘭文、泰文和越南文。選擇文件的主要語言以獲得最佳準確度。
隱私與安全
你的 PDF 會留在瀏覽器中。OCR 完全在你的裝置上執行,使用 Tesseract.js 編譯為 WebAssembly。PDF2atom 不會上傳、儲存、檢查或分析你的文件與提取文字。無伺服器端處理、無 API 呼叫。
常見問題
提取文字時圖片 PDF 會上傳嗎?
不會。OCR 完全在瀏覽器中執行,使用 Tesseract.js。PDF2atom 不會收到你的文件或提取的文字。
如何知道我的 PDF 是圖片型的?
嘗試在 PDF 閱讀器中選取文字。如果無法選取或高亮個別字詞,則 PDF 是圖片型的。也可以檢查 — 如果 Ctrl+F 找不到可見的文字,則 PDF 需要 OCR。
如果圖片 PDF 也有一些可選取文字怎麼辦?
此工具會自動檢查可選取文字。如果找到,會同時提供快速文字提取和完整 OCR — 你可以選擇使用哪個路徑。
圖片 PDF 的 OCR 準確度如何?
準確度取決於掃描品質。200-300 DPI 的掃描和良好的對比度會產生最佳結果。傾斜、模糊或低對比度的頁面會降低準確度。
可以讀取圖片 PDF 中的手寫文字嗎?
Tesseract 針對印刷文字最佳化。手寫辨識能力有限,通常不可靠。
密碼保護的圖片 PDF 可以使用嗎?
密碼鎖定的 PDF 需要先使用你知道的密碼解鎖。PDF2atom 不提供破解或繞過密碼功能。
提取需要多長時間?
Tesseract.js 首次載入約需 4-6 秒,之後每頁約需 5-20 秒。5 頁掃描文件通常可在 2 分鐘內完成。