Šta je OCR i kad ti zaista treba.
OCR pretvara slike teksta u stvarni tekst — odlično za skenirane knjige, ugovore i fotografije dokumenata. Kad radi savršeno, kad teško, i kako u Freekonvertu.
OCR (Optical Character Recognition — optičko prepoznavanje znakova) je tehnologija koja gleda sliku stranice i izvlači stvarni tekst iz nje. Razlika je suštinska: bez OCR-a, slika riječi "Ugovor" je samo skup piksela koji izgleda kao ta riječ. Sa OCR-om, kompjuter zna da tu piše "Ugovor" i možeš da kopiraš, pretražuješ i editujеš.
Kad ti OCR treba
- Skenirao si ugovor i hoćeš da iskopiraš jednu rečenicu u email — bez OCR-a, ne možeš da je selektuješ.
- Imaš PDF od 200 stranica sa skenovima knjige i tražiš tačnu frazu — OCR omogućava Ctrl+F.
- Treba ti Word verzija dokumenta koji ti je neko poslao kao skeniran PDF — OCR čita tekst pa ga LibreOffice ubaci u .docx.
- Imaš fotografiju ručno napisanog/štampanog dokumenta sa telefona — OCR može da izvuče tekst (ako je čitljiv).
Kad NE treba
Ako tvoj PDF već ima pravi tekst (probaj Ctrl+F u njemu — ako pronalazi riječi, ima tekst), OCR samo gubi vrijeme. Word dokumenti, PDF-ovi sačuvani iz Word-a, PDF računi iz prodavnice — to su native tekst PDF-ovi. OCR je za **skenirane** dokumente.
Kako radi (jednostavno objašnjenje)
Moderni OCR koristi neuralne mreže obučene na milionima primjera teksta na različitim jezicima. Kratak proces:
- 1. Algoritam podijeli sliku stranice u manje regione (paragrafe, redove, riječi).
- 2. Svaku riječ pokušava da prepozna upoređujući oblike piksela sa naučenim šablonima slova.
- 3. Koristi rečnik jezika da provjeri ima li smisla — "uravor" će biti ispravljen u "ugovor" jer prvi ne postoji.
- 4. Izlaz: tekst sa pozicijama u dokumentu, koji se može ugraditi u PDF ili izvući kao .txt/.docx.
Šta utiče na kvalitet OCR-a
Rezolucija skena
Idealno: 300 DPI. Niže (npr. 150 DPI mobilnih fotografija) može da radi za štampani tekst, ali greši na sitnim detaljima. Više od 300 DPI ne pomaže — samo usporava.
Kvalitet originala
Štampani tekst u kontrastu (crno-bijelo) — ~99% tačnost. Rukopis — 60-85% u najboljem slučaju. Fotografisano kosim uglom — pomaže "deskew" obrada. Mrlje, presijavanje, presavijene stranice — sve smanjuje tačnost.
Jezik
OCR motori se uče po jezicima. Mi u Freekonvertu koristimo srp+eng modele, pa srpski i engleski idu sa dobrom tačnošću. Crnogorski ćirilica/latinica je dio srpskog modela. Za njemački, francuski, itd. — radi, ali sa nešto većim greškama jer model nije primarno obučen za njih.
Kako u Freekonvertu
Naš PDF u Word alat ima OCR ugrađen — automatski prepoznaje da li PDF već ima tekst. Ako da, koristi taj tekst direktno (brže, savršena tačnost). Ako ne (skenirani PDF), pokreće OCR sa srp+eng modelima prije nego što ga preda LibreOffice-u za pravljenje Word fajla. Sve u jednom kliku, korisnik ne mora ništa da bira.