30. maj 2026.

Kako skenirani dokument pretvoriti u pretraživi PDF — vodič za OCR.

Skenirana knjiga, ugovor, faktura ili lična karta — sve to možeš pretvoriti u pretraživ PDF preko OCR-a. Vodič za rad sa srpskim i engleskim tekstom.

Ako ti je neko poslao skeniran PDF, vjerovatno si pokušao da selektuješ tekst i — ništa. Selekcija obuhvati pravougaonik umjesto riječi. Razlog: PDF sadrži sliku stranice, ne pravi tekst. Rješenje: OCR.

Šta OCR radi

OCR (Optical Character Recognition) je algoritam koji "čita" slike i prepoznaje slova, riječi, rečenice. Output OCR-a je obično pretraživ PDF sa nevidljivim slojem teksta postavljenim preko slike — tekst je tu, ali ne mijenja izgled originala.

Praktične posljedice: možeš da selektuješ tekst, da pretražuješ PDF (Ctrl+F), da ga kopiraš u Word, da ga koristiš sa screen reader-om.

Pokreni OCR→

Šta naš OCR servis radi pod haubom

Koristimo Tesseract 4 (engine koji koristi i Google Books), sa srpskim i engleskim jezičkim modelima. Dodatne tehnike koje primjenjujemo:

Auto-rotacija (deskew) — ispravlja malo nakrivljene skenove.
Čišćenje noise-a — uklanja crne tačke, mrlje i artefakte.
Skip-text mod — pages koje već imaju tekst se ne dva puta procesuju.
UTF-8 encoding — ćirilica i latinica rade isto.

Šta OCR ne radi savršeno

Rukopis nije podržan dobro. Tesseract je treniran na štampi.
Vrlo loš sken (mutan, izblijedio, šarav) daje mnogo grešaka u prepoznavanju.
Tekst u dijagramima ili slikama može biti propušten.
Tabele se često prepoznaju kao tekst (bez strukture tabele).

Praktični trikovi za bolji OCR

Ako skeniraš telefonom — koristi aplikaciju "Office Lens" (Microsoft) ili "Adobe Scan" — automatski ispravljaju perspektivu i kontrast.
Skeniraj na 300 DPI ako možeš. Manje DPI = manje detalja za OCR.
Pre-procesuj sliku: poveć kontrast, ukloni boje, ako original ima žute mrlje.
Mešani jezik (srpski + engleski u istom dokumentu) je u redu — naš servis koristi oba rječnika istovremeno.

Šta dalje sa OCR-ovanim PDF-om

Najčešće sledeće akcije:

Konvertuj u Word za uređivanje teksta (naš PDF u Word automatski koristi OCR za skenove, ali ti dobijaš dvostruko bolji output ako prvo pokreneš OCR pa zatim konverziju).
Izvuci čist tekst kao .txt za citate, analize, copy-paste.
Kompresuj — OCR-ovani PDF je obično 30-50% veći od originala (zbog dodatnog teksta).

Izvuci tekst kao .txt→

OCR nije magija — daje ti raw tekst, ti odlučuješ šta dalje. Ali jednom kad imaš pretraživ PDF, sve druge operacije postaju mnogo lakše.

povezani alati

ocr pdf

pdf u word

pdf u tekst

Šta OCR radi

Praktične posljedice: možeš da selektuješ tekst, da pretražuješ PDF (Ctrl+F), da ga kopiraš u Word, da ga koristiš sa screen reader-om.

Šta naš OCR servis radi pod haubom

Koristimo Tesseract 4 (engine koji koristi i Google Books), sa srpskim i engleskim jezičkim modelima. Dodatne tehnike koje primjenjujemo:

Auto-rotacija (deskew) — ispravlja malo nakrivljene skenove.

Čišćenje noise-a — uklanja crne tačke, mrlje i artefakte.

Skip-text mod — pages koje već imaju tekst se ne dva puta procesuju.

UTF-8 encoding — ćirilica i latinica rade isto.

Praktični trikovi za bolji OCR

Ako skeniraš telefonom — koristi aplikaciju "Office Lens" (Microsoft) ili "Adobe Scan" — automatski ispravljaju perspektivu i kontrast.

Skeniraj na 300 DPI ako možeš. Manje DPI = manje detalja za OCR.

Pre-procesuj sliku: poveć kontrast, ukloni boje, ako original ima žute mrlje.

Mešani jezik (srpski + engleski u istom dokumentu) je u redu — naš servis koristi oba rječnika istovremeno.

Šta dalje sa OCR-ovanim PDF-om

Najčešće sledeće akcije:

Konvertuj u Word za uređivanje teksta (naš PDF u Word automatski koristi OCR za skenove, ali ti dobijaš dvostruko bolji output ako prvo pokreneš OCR pa zatim konverziju).

Izvuci čist tekst kao .txt za citate, analize, copy-paste.

Kompresuj — OCR-ovani PDF je obično 30-50% veći od originala (zbog dodatnog teksta).

OCR nije magija — daje ti raw tekst, ti odlučuješ šta dalje. Ali jednom kad imaš pretraživ PDF, sve druge operacije postaju mnogo lakše.