Tinklapio žemėlapis | Paieška | Kontaktai
 Abbyy
 

ABBY develops OCR/ICR/OMR, forms processing and language software

ĮmonėProduktaiSiuntimaiPirkimasPartneriaiPagalba
Paieška

Kas yra Optinis Simbolių Atpažinimas?

OCR galima naudoti ne vien skenuotiems dokumentams.

Įsivaizduokite, kad Jums reikia žurnalo straipsnį arba atspausdintą sutartį konvertuoti į skaitmeninį formatą. Galite valandų valandas įvedinėti reikiamą tekstą į kompiuterį ir vėliau taisyti klaidas. Arba galite per kelias minutes konvertuoti visą reikiamą medžiagą į skaitmeninį formatą naudodami skenerį ir OCR programinę įrangą.

OCR Kas tai?
OCR Kas Tai? 
OCR, arba Optinis Simbolių Atpažinimas, tai technologija, kuri suteikia Jums galimybę konvertuoti įvairius dokumentus, tokius kaip skenuoti arba popieriniai dokumentai, PDF formato failai ar skaitmeninės nuotraukos, į redaguojamą ir paieškai prieinamą informaciją.

Įsivaizduokite, kad turite popierinį dokumentą – tarkim, žurnalo straipsnį, brošiūrą arba PDF formato sutartį. Akivaizdu, kad norint padaryti šią informaciją tinkamą redagavimui, sakykim, Microsoft Word programoje, vien skenerio negana. Skeneris tegali sukurti dokumento atvaizdą ar momentinę nuotrauką, o tai tebus baltų ir juodų taškų rinkinys, dar vadinamas taškine grafika. Norint išgauti ir vėliau panaudoti informaciją iš skenuotų dokumentų, skaitmeninių nuotraukų ar  PDF vaizdo failų, Jums tereikia OCR programos, kuri atskirs raides nuotraukoje, sudės jas į žodžius, o žodžius į sakinius, taip suteikiant Jums galimybę naudoti ir redaguoti nuotraukoje esantį tekstą.

Kas slypi už optinio simbolių atpažinimo technologijos?

Tikslūs mechanizmai, leidžiantys žmonėms atpažinti objektus dar nėra pilnai išaiškinti, tačiau mokslininkai jau žino tris pagrindinius principus – vientisumas, kryptingumas ir pritaikomumas (angl. IPA – Integrity, Purposefulness, Adaptability). Šie pagrindiniai principai sudaro ABBYY FineReader optinio simbolių atpažinimo technologijos esmę.

Pažvelkime kaip Fine Reader OCR atpažįsta tekstą. Pirmiausia, programa išanalizuoja dokumento vaizdo struktūrą ir suskirsto puslapį į tokius elementus kaip tekstas, lentelės, paveikslėliai ir t.t. Tekstas yra suskirstomas į žodžius, o vėliau į rašmenis. Atskyrus rašmenis, programa lygina juos su vaizdo pavyzdžiais. Ji „apsvarsto“ įvairias hipotezes, koks tai rašmuo. Remiantis šiomis hipotezėmis, programa analizuoja įvairias teksto padalinimo į žodžius, o žodžius į rašmenis galimybes. Apdorojant daugybę tokių hipotezių, programa galiausiai priima sprendimą ir pristato Jums atpažintą tekstą.

Tikslūs mechanizmai, leidžiantys žmonėms atpažinti objektus dar nėra pilnai išaiškinti, tačiau mokslininkai jau žino tris pagrindinius principus – vientisumas, kryptingumas ir pritaikomumas (angl. IPA – Integrity, Purposefulness, Adaptability). Šie pagrindiniai principai sudaro ABBYY FineReader optinio simbolių atpažinimo technologijos esmę.

Pažvelkime kaip Fine Reader OCR atpažįsta tekstą. Pirmiausia, programa išanalizuoja dokumento vaizdo struktūrą ir suskirsto puslapį į tokius elementus kaip tekstas, lentelės, paveikslėliai ir t.t. Tekstas yra suskirstomas į žodžius, o vėliau į rašmenis. Atskyrus rašmenis, programa lygina juos su vaizdo pavyzdžiais. Ji „apsvarsto“ įvairias hipotezes, koks tai rašmuo. Remiantis šiomis hipotezėmis, programa analizuoja įvairias teksto padalinimo į žodžius, o žodžius į rašmenis galimybes. Apdorojant daugybę tokių hipotezių, programa galiausiai priima sprendimą ir pristato Jums atpažintą tekstą.

Beto, ABBYY FineReader suteikia žodyno palaikymą 36 kalboms, kas leidžia daryti antrinę teksto elementų analizę žodžių lygyje. Žodyno palaikymo pagalba, programa užtikrina dar tikslesnį dokumentų atpažinimą ir analizę, o taip pat palengvina  tolimesnį atpažinimo rezultatų patikrinimą.

* IPA
Kokiais principais remiasi FineReader OCR?
Labiausiai pažengusios atpažinimo sistemos, tokios kaip FineReader OCR, susitelkia ties natūraliu atpažinimo procesu. Šios sitemos esmę sudaro trys pagrindiniai principai - vientisumas, kryptingumas ir pritaikomumas. Vientisumo principo esmė yra tokia, kad dokumentas turi būti visada suvokiamas kai vientisas, sudarytas iš daugybės tarpusavyje susijusių elementų objektas. Kryptingumo principas teigia, jog bet kokia duomenų interpretacija visada turi būti atliekama tam tikru tikslu. Pritaikomumo principas skelbia, jog programa privalo be capable of self-learning. 

Nereikia būti OCR specialistu norint ižvelgti OCR programos, kurią sudaro trys principai, privalumus. Šie principai suteikia programai maksimalų lankstumą ir sumanumą, bei priartina ją prie naturalaus žmogiškojo atpažinimo. Po daugelį metų trukusių tyrimų, šie principai buvo įdiegti OCR technologijoje.

Skaitmeninių vaizdų atpažinimas

Skaitmeniniu fotoaparatu darytos nuotraukos skiriasi  nuo skenuotų dokumentų ar PDF formato vaizdų. Jos dažnai būna susiliejusios, neryškios, o tai apsunkina atpažinimo procesą. Naujausia ABBYY FineReader versija yra sukurta specialiai skaitmeninių nuotraukų atpažinimui. Beto, programa gali pagerinti tokių nuotraukų kokybę.

Daugiau informacijos apie Skaitmeninių Nuotraukų Atpažinimą rasite čia.

Kaip naudoti OCR?

Naudoti ABBYY FineReader OCR labai lengva: procesą sudaro trys žingsniai:
Dokumento atidarymas (skenavimas), dokumento atpažinimas ir jo išsaugojimas patogiu formatu (DOC, RTF, XLS, PDF, HTML, TXT, ir t.t), arba duomenis galima perkelti tiesiai į vieną iš Office programų, pavyzdžiui, Microsoft Word, Excel arba Adobe Acrobat.

Beto, naujausia ABBYY FineReader versija palaiko „Automated Tasks“ režimą, kuris yra būtinas, jei tenka reguliariai susidurti su tomis pačiomis užduotimis. Šios savybės dėka, atpažinimo užduotys yra vykdomos automatiškai, be rankinio aukščiau išvardintų trijų žingsnių vykdymo.

Kokia Jums nauda iš OCR?

Su FineReader OCR, atpažintas dokumentas atrodys lygiai taip pat kaip originalas

 

FineReader Optinio Simbolių Atpažinimo technologijos dėka, atpažintas dokumentas niekuo nesiskiria nuo originalo. Pagerinta, galinga OCR programinė įranga kuria ir apdoroja dokumentus taupydama Jūsų laiką ir pastangas. Su ABBYY FineReader galite skenuoti popierinius dokumentus, o vėliau juos redaguoti arba dalintis jais su savo kolegomis ir partneriais. Jums nereikės iš naujo įvedinėti tekstą į kompiuterį norint jame turėti citatas iš knygų ar žurnalų. Savo skaitmeninio fotoaparato ir FineReader OCR pagalba, Jūs galite užfiksuoti tekstą tiesiog iš lauko plakatų, reklaminių iškabų ar tvarkaraščių, o vėliau jį panaudoti savo tikslais. Tokiu pat būdu galima užfiksuoti informaciją iš popierinių dokumentų ar knygų – pavyzdžiui, jei po ranka nėra skenerio arba tiesiog nėra galimybės jį panaudoti. Beto, naudodami OCR, lengvai sukursite paieškai prieinamus PDF formato failus.

Duomenų konvertavimas iš originalaus dokumento, nuotraukos ar PDF formato failo trunka mažiau nei minutę, o atpažintas dokumentas niekuo nesiskiria nuo originalo!

Daugiau informacijos kaip OCR gali pagelbėti Jūsų kasdieniniame gyvenime rasite čia.