Dagens utmaningar med dokument bildanalys

dagens utmaningar med dokument bildanalys

OCRs är inte på extrahera alla användbara uppgifter som är avsedda för analys av användargenererat bilder av dokument

Mobila tekniken är allt spelar en genomgripande roll både hemma och på kontoret. Företag nu möjligt för användare att ta bilder av dokument, mycket bekvämt genom en smart telefon för att snabbt och säkert skicka till mottagare för att extrahera användbar information.

I början av 1960-talet, optisk teckenigenkänning (OCR) var en av de första tydliga tillämpningar av mönsterigenkänning, och idag, för vissa enkla uppgifter med ren och väl bildas data, dokument analys uppfattas som ett löst problem. Tyvärr, dessa enkla uppgifter inte motsvarar de vanligaste behoven av mottagarna av dokumentet bildanalys. Utmaningar av komplexa innehåll och layout, bullriga data, och variationer i typsnitt och stil presentation hålla området för mönsterigenkänning i dokumentet bildanalys aktivt.

Dokument bildanalys är att snida en nisch av de mer allmänna problem med dator vision på grund av sin pseudo binära natur och korrektheten i de mönster som används som en “visuell” representation av språket.

Portable document skannrar i vår hand.

Den ökande tillgänglighet av handhållna kameror som brukar ha billiga sensorer knutna till mobiltelefoner har skapat en möjlighet för att komplettera traditionell skanning för dokument bilden förvärv och analys. Det kan ta bilder av tjocka böcker, multi-sidan skript, skyltar och text i scener, vilket gör kameror på mobila telefoner mycket mer mångsidig än desktop scanner. I själva verket har det blivit ett av de viktigaste medierna för att fånga dokument som snabbar upp KYC genom att göra det papperslösa och människor-mindre.

har branschen kände denna riktning och flytta en del av skanner-baserad OCR-program till nya användningsfall, t ex CamScanner tillåter en användare att konvertera bilden till högkvalitativa dokument innan du kan spara eller dela med mottagarna. Google Translate är snabbt på att bli idén om universellt språk översättning enhet som innehåller sömlös konversation och utländska text översättning. Pekskärm telefoner nu aktivera en fingertopp för att välja eller att fokusera på ett område på ett dokument och erkänna den valda tryckta eller handskrivna symboler. Intelligenta digitala kameror identifiera och översätta skyltar skrivna på främmande språk också.

Världen Objektiv funktion på Google Translate tillåter användare att direkt översätta gatuskyltar i främmande språk.

Så vad är problemet?

Skannrar använda hög bildkvalitet sensorer och ideala förhållanden för plana ytan, ingen förvrängning, enhetlig belysning och inga bakgrundsljud. Om hög kvalitet enhet ersätts av enheter avsedda för att det dagliga livet, dessa flexibla villkor införa nya behandlingar krav i bilder laddade med text som de finansiella dokumenten. Den gemensamma problem i dålig kvalitet på text bilder är på grund av begränsad känslighet låg-kostnad-kamera.

Inte alla företag som har teknik för att konvertera användargenererat bild till en hög kvalitet maskinläsbara dokument.

skillnaden i sammansättningen av bilder definierar utmaningar av att extrahera text innehåll. En majoritet av arbete på kamera-insamlad data har gjorts i området av bearbetning av bild och video text från broadcast video eller stillbilder med stor teckenstorlek, snarare än på bearbetning av bilder av strukturerade dokument. Mobiltelefon som genereras tung-sms: a bilder av dokument innebär flera utmaningar jämfört med att extrahera data från samma bilder kommer från skannrar skrivbordet. Segmentering av text från lågupplösta bilder av dokument är en mycket utmanande uppgift på grund av den höga inter/inom variationen mellan dokument bakgrund och förgrund text i olika dokument bilder. Några av de vanligaste utmaningarna som vi står inför:

  • Ojämn belysning — Ojämn belysning villkor är vanligt på grund av den fysiska miljön (skugga, reflektion, lysrör) och ojämn svar från enheterna. I händelse av flash lampor, centrala syfte är starkast medan belysning sönderfaller ut radiellt.
  • Perspektiv distorsion: — uppstår när sms: a plan är inte parallellt med bildplanet. Effekten är att den längre texten ser mindre & snedvrids. Parallell-rad antaganden är inte längre sant för texten.

Perspektiv distorsion i en bild tagen med mobil kamera

  • Icke-plana ytor som — Texten kan visas på vilken yta som helst, men inte nödvändigtvis på ett plan. Sidor dokument ofta böjda så det blir gamla. Detta kallas för skevhet effekt. Precis som perspektiv distorsion, även skevhet kan misslyckas de flesta av OCRs.

Icke plana bilder av kontoutdrag tagna med mobiltelefoner

  • Vidvinkel-lins distorsion: — Som ett avbildat föremål får närmare till bildplanet, belysning, fokus och layout snedvridningar uppstår ofta i periferin. Eftersom många fokus utan kamera telefoner kommer med en billig brett vinklade objektivet, distorsion är ofta ett problem i händelse av dokument analys
  • Komplicerad bakgrund — användare Ofta är helt omedvetna om den avsedda text eller dokument får avbildas med onödig bakgrund. En icke-enhetlig bakgrund gör segmentering av dokumentet extremt svårt.

En bild med en komplex bakgrund

  • Zoomning och fokus — Eftersom många kameran telefoner är utformade för att fungera över en mängd olika avstånd, fokus blir en viktig faktor. Skarp kant svar krävs för bästa karaktär segmentering och erkännande. Vid korta avstånd och stora öppningar, med visst perspektiv ändringar kan orsaka ojämn fokus
  • Intensitet & Färg kvantisering — I en perfekt avbildning enhet, varje pixel i en foton sensorn bör produktionen luminansen av inkommande ljus och färg komponenter som motsvarar den frekvens av ljus. Nuvarande kamera-telefoner kan lätt under/ över-exponera på grund av deras små foton sensor storlek.
  • Sensor buller — Mörk buller och läsa ut buller är två viktiga källor till buller på sensor skede i kameratelefoner. Ju högre slutartid, desto mindre bländare, mörkare scen och ju högre temperaturen är, desto större buller.

En låg upplösning kontoutdrag med en hel del buller på grund av låga sensor

  • Komprimering & låg upplösning — de Flesta bilder är tagna komprimerade antingen vid källan eller under överföringen. t ex bilder som skickas över messaging plattformar som WhatsApp är komprimerade för att fästa filöverföring. Medan OCRs är inställd för att läsa en upplösning på mellan 150 och 400 dpi, samma text i en komprimerad bild kanske under 150dpi.

namn=0360>Mobil kameror har blivit så allt mer populära, och de har potentiellt bli ett alternativ document imaging device. Även om det inte kan ersätta skannrar, den är liten, lätt, lätt integreras med olika nätverk & apps och mer lämpliga för många dokument att fånga upp uppgifter i mindre begränsade miljöer. Dessa fördelar leder till en naturlig förlängning av dokumenthantering community där kameror används för att bilden tryckta handlingar eller naturliga scener som innehåller text.

antal storskaliga projekt med digitalisering heterogenous innehåll fortsätter att växa, det är ett tvingande behov av pålitliga och skalbara triage metoder för förbättring, segmentering, klassificering och kategorisering av dokument bilder.

We will be happy to hear your thoughts

Leave a reply