imagazin arrow2-left arrow2-right arrow2-top arrow-up arrow-down arrow-left arrow-right cart close dossiers education fb instagram menu notification oander rss rss-footer search service shuffle speech-bubble star store stores tests twitter youtube

Milyen lesz a MacBook Pro 5 év múlva?

Az iMagazin koncepciója a Ti elképzeléseitek alapján!

Hogyan működik az OCR?


Biztosan nektek is számtalanszor volt már rá szükségetek, hogy egy kinyomtatott dokumentumot digitalizáljatok. Ha nincs meg a digitális forrás, akkor nem sok lehetőség marad: vagy begépeled kézzel vagy valamilyen optikai karakterfelismerésre képes programot használsz. Most megmutatjuk, hogyan működik az utóbbi.

Dokumentumaink jelentős része napjainkban már valamilyen digitális formátumban létezik, és jó esetben könnyen szerkeszthetőek valamilyen szövegszerkesztővel. Ebből a digitális kópiából nyomtatott változatot létrehozni manapság már tényleg gyerekjáték, tulajdonképpen elég hozzá egy nyomtató és a CMD + P billentyűkombináció.

Igen ám, de fordítva már koránt sem ilyen egyszerű a helyzet. Ott vannak persze a szkennerek, de azok tulajdonképpen csak egy nagy felbontású, jól megvilágított képet készítenek az oldalakról. De mi van akkor, ha egy nyomtatott dokumentumot úgy szeretnénk digitalizálni, hogy a szöveg része szerkeszthető legyen? Rosszabb esetben nincs más csak a manuális begépelés, ami adott szövegmennyiség fölött elég fájdalmas tud lenni. Jobb esetben viszont van hozzá egy okos programunk, erre képes szkennerünk.

Az eljárást optikai karakterfelismerésnek (rövidítve OCR, az angol Optical Character Recognition szavakból) nevezik. Ahogy a neve is mutatja, ilyenkor minden egyes karaktert egyesével fel kell ismerni. Bár így leírva talán annyira nem tűnik nehéz feladatnak, valójában nagyon is az. Szinte végtelen számú betűtípus létezik, sok közülük egészen extrém. Sokszor emiatt könnyen felcserélhetőek az egyes karakterek, főleg a hasonló betűk.

Hogyan oldják meg ezt az algoritmusok? Mindenek előtt először is szükség van minden zavaró tényező kizárására. Mivel egy fénykép a kiindulási alapunk, először is el kell dönteni, hogy mi az ami a betű, mi az ami a lap és mik az egyéb szennyeződések, ábrák, minták, szimbólumok. Ehhez a szoftverek tulajdonképpen egy kis Photoshop-trükkhöz folyamodnak: felcsavarják a kontrasztot, kiemelik a fehér részeket és felerősítik a feketét. Innentől kezdve pedig máris egész jól elkülönül az ocsú a búzától.

A neheze viszont csak ez után jön. A program szegmentálja és “körberajzolja” az egyes karaktereket, majd az így kapott körvonalakat összeveti az adatbázisában található betűtípusokkal. Ez alapvetően pixeles összehasonlítást jelent, de a jobbféle algoritmusok az ívekből, egyenesekből és társaiból egyfajta “vektoros” modellt is készíthetnek, amely növeli a felismerési hatékonyságát.

Erre jön rá végül az utolsó eljárás: a szótárazás. Aki használt már OCR programot az tudja, hogy a legtöbb esetben meg kell adni, milyen nyelvű dokumentumot akarunk beszkennelni. Erre azért van szükség, mert így a szoftver nagyobb magabiztossággal dolgozhat. Kétes esetekben segít neki eldönteni, melyik változat a helyes a lehetőségek közül.

Ettől függetlenül természetesen az eljárás ritkán tökéletes, mindig maradhatnak benne hibák, szóval érdemes átolvasni és ellenőrizni a végeredményt. Mindenesetre ez tipikusan az a terület, ahol a gépi tanulás és mesterséges intelligencia-fejlesztések jelentős előrelépéseket hozhatnak.

A legfejlettebb OCR programokkal egyébként a postákon lehet találkozni. Ezek már annyira profik, hogy még a kézírást is képesek nagyfokú hatékonysággal felismerni, márpedig ott ugyebár nincsen semmilyen betűtípus-készlet mankónak.

Ha kedvet kaptál egy kis OCR-ezésre, akkor vagy a jó öreg Adobe, vagy az Abby szoftvereit ajánljuk. Mindkét vállalat képviselteti magát iOS-en és Macen is egyaránt.

Forrás: Techquickie

0% THM 20 hónapra

Ezt már olvastad?

A Sirinek ez is az egyik baja, hogy mindenki a célközönség. Valószínűleg hatékonyabb lenne, ha először jól működő modulokat hoznának létre egy-egy funkcióra szabva.

Miért nem ismeri anyanyelvünket az Apple virtuális asszisztense? - Klikk ide!