OCR og datafangst

Et skannet dokument er egentlig et "digitalt foto" av alle sidene. Mennesker kan enkelt lese og forstå teksten ved å se på bildet, men en datamaskin kan ikke gjøre mye ut av det bortsett fra å vise det på skjermen.

For å kunne gjøre bruk av selve teksten, så må programvaren først kjøre dokumentet gjennom en prosess som kaldes OCR (Optical Character Recognition/Tekstgjenkjenning). Denne teknologien gjør det mulig for datamaskiner å analysere og tolke skannede bilder og konvertere dem til ekte elektronisk tekst.

OCR øker verdien av de skannede dokumentene ved at innholdet blir søkbart og gjenbrukbart.

Søkbare PDF-er

OCR er viktig når du skanner dokumenter til PDF, fordi det vil gjøre PDF-filene søkbare. Dette igjen gjør at ditt dokumenthåndteringssystem kan indeksere dokumentene slik at du raskt kan søke etter og hente dem frem fra arkivet senere.

PixEdit® lagrer både den elektroniske teksten og det skannede bildet i PDF-filen. Vi kaller det "skjult" tekst. Med dette menes at dokumentene vil være fullt søkbare og teksten kan gjenbrukes, samtidig som den visuelle fremstillingen av dokumentet vil fremstå helt likt med orginalen.

PixEdit® lagrer PDF-dokumentet i henhold til Riksarkivets retningslinjer for arkivering.

Gjenbruk av tekst

OCR er også nyttig for andre formål:

  • Rask kopiering av tekst fra et skannet dokument til et annet program, for eksempel Word, Excel, PowerPoint, Outlook o.l
  • Eksportering til en tekstfil og import i andre programmer
  • Hjelper deg med å legge til PDF Bokmerker raskere
  • Skjemabehandling og utrekking av metadata

 

Instruksjonsvideoer

OCR - Tekstgjenkjenning

PDF bokmerker

Mer

PixEdit® Desktop

En komplett løsning for dokumentskanning