Kako skenirani dokument pretvoriti u pretraživi PDF — vodič za OCR.
Skenirana knjiga, ugovor, faktura ili lična karta — sve to možeš pretvoriti u pretraživ PDF preko OCR-a. Vodič za rad sa srpskim i engleskim tekstom.
Ako ti je neko poslao skeniran PDF, vjerovatno si pokušao da selektuješ tekst i — ništa. Selekcija obuhvati pravougaonik umjesto riječi. Razlog: PDF sadrži sliku stranice, ne pravi tekst. Rješenje: OCR.
Šta OCR radi
OCR (Optical Character Recognition) je algoritam koji "čita" slike i prepoznaje slova, riječi, rečenice. Output OCR-a je obično pretraživ PDF sa nevidljivim slojem teksta postavljenim preko slike — tekst je tu, ali ne mijenja izgled originala.
Praktične posljedice: možeš da selektuješ tekst, da pretražuješ PDF (Ctrl+F), da ga kopiraš u Word, da ga koristiš sa screen reader-om.
Šta naš OCR servis radi pod haubom
Koristimo Tesseract 4 (engine koji koristi i Google Books), sa srpskim i engleskim jezičkim modelima. Dodatne tehnike koje primjenjujemo:
- Auto-rotacija (deskew) — ispravlja malo nakrivljene skenove.
- Čišćenje noise-a — uklanja crne tačke, mrlje i artefakte.
- Skip-text mod — pages koje već imaju tekst se ne dva puta procesuju.
- UTF-8 encoding — ćirilica i latinica rade isto.
Šta OCR ne radi savršeno
- Rukopis nije podržan dobro. Tesseract je treniran na štampi.
- Vrlo loš sken (mutan, izblijedio, šarav) daje mnogo grešaka u prepoznavanju.
- Tekst u dijagramima ili slikama može biti propušten.
- Tabele se često prepoznaju kao tekst (bez strukture tabele).
Praktični trikovi za bolji OCR
- Ako skeniraš telefonom — koristi aplikaciju "Office Lens" (Microsoft) ili "Adobe Scan" — automatski ispravljaju perspektivu i kontrast.
- Skeniraj na 300 DPI ako možeš. Manje DPI = manje detalja za OCR.
- Pre-procesuj sliku: poveć kontrast, ukloni boje, ako original ima žute mrlje.
- Mešani jezik (srpski + engleski u istom dokumentu) je u redu — naš servis koristi oba rječnika istovremeno.
Šta dalje sa OCR-ovanim PDF-om
Najčešće sledeće akcije:
- Konvertuj u Word za uređivanje teksta (naš PDF u Word automatski koristi OCR za skenove, ali ti dobijaš dvostruko bolji output ako prvo pokreneš OCR pa zatim konverziju).
- Izvuci čist tekst kao .txt za citate, analize, copy-paste.
- Kompresuj — OCR-ovani PDF je obično 30-50% veći od originala (zbog dodatnog teksta).