Ingyen OCR a neten: OnlineOCR.net3 perc olvasás

Az optikai karakterfelismerés (OCR) nagy könnyebbséget jelenthet egy small data problémával küszködő adatelemző számára.

Hadd kezdjem egy kis felvezetéssel:

Én is egy vagyok azok között, akik keresik a legjobb autósiskolát, viszont csak igen kevés információra támaszkodhatnak. Minden iskola szupernek hirdeti magát, mindenkire van negatív visszajelzés is, marad a személyes ajánlás. Vagy rákeresel a guglin, hogy autósiskola, és a Jó napom van-ra bízod magadat. (Én utóbbi megoldással mégegyszer visszajutottam a CsigaJogsihoz, amit pedig direkt otthagytam a múltkor, így nem lett jobb napom.)

Van azonban más lehetőség is:

Azt gondolom igen kevesen tudják, hogy vannak hivatalosan gyűjtött teljesítmény adatok az egyes iskolákra vonatkozóan. Megtalálhatók a Közlekedési Hatóság honlapján, negyedéves gyakorisággal frissítve. A lenti mutatók értéke alapján – legalább egy fokkal – könnyebb képet alkotni egy autósiskoláról.

  • Az Átlagos Képzési Óraszám (ÁKÓ) megmutatja, hogy az adott képzőszerv egy tanulót átlagban hány óra (alap- és pótórákat összeadva) alatt készített fel a sikeres gyakorlati vizsgára.
  • A Vizsga Sikerességi Mutató (VSM) ismerteti, hogy az autósiskola összes elméleti vagy összes gyakorlati vizsgájából mennyi lett sikeres.

Gondoltam jó lenne egy applikációt rendelkezésére bocsátani a tanulni vágyóknak, hogy könnyebben eligazodjanak a számok tengerében. A végső applikáció egyébként meg is valósult, ezen a linken a demo1 / demo1 (login és jelszó is) belépéssel tudjátok elérni.

Most azt mutatnám be, hogy a Free Online OCR segítségével milyen egyszerű volt az adatokat legyűjteni az NKH honlapjáról.

Tehát, a hazai Közlekedési Hatóság honlapjáról szerettem volna felhasználni az autósiskolák negyedéves Vizsga Sikerességi Mutató (VSM) adatait, ami egy 38 oldalnyi táblázat, pdf fájl formátumban. És ebben meglepően gyorsan és pontosan segített rajtam a Free Online OCR.

Egy gyors és ingyenes regisztrációt követően kb. 3 perc feldolgozás után elkészült számomra az Excel (XLSX) fájlom, amit már el sem tudok veszíteni, a honlap egy hónapig megőrzi számomra. Az ingyenes 50 oldalas keretemben pedig bőven benne tudtam maradni.

Az Excel táblázat értékeit igen könnyű volt csv formátumba átalakítani, hogy aztán az R-en keresztül a Shiny dashboard alapja lehessen. Gyors átnézés alapján elmondhatom, nem voltak problémák a táblázat értékeinek elcsúszásával. Mindössze a táblázat fejlécében volt kis bonyodalom, de ezt könnyű volt javítani, ráadásul a saját változó neveim miatt nem is akartam megtartani.

Végül a regisztrációval együtt 15 perc alatt komótosan hozzájutottam a 902 autósiskolára vonatkozó, összesen közel 4000 számértékhez, és az időmet a Shiny dashboard építésére koncentrálhattam. Ítéljétek meg az eredményét ti magatok, és ajánljátok a tanulni vágyók számára!

Aki nagyobb mennyiségben is ingyen, automatizáltan szeretne OCR feladatot végezni, az pedig nézzen körül a pdftools vagy tesseract R csomag, illetve a hasonló Python csomagok háza táján.

Szolnoki Endre

About Endre Szolnoki

Finished his MBA at CEU Business School in 2016, economist, major in Applied Statistics. Has 7 years of work experience as analyst and consultant. Did extensive modeling works mostly in the energy field. Gained work experience in the UK, London. Currently building data analytics team. Very passionate about healthcare.

View all posts by Endre Szolnoki →

Leave a Reply

Your email address will not be published. Required fields are marked *