OCR

I sistemi di Optical Character Recognition (riconoscimento ottico dei caratteri, detti anche OCR) sono programmi dedicati alla conversione di un'immagine contenente testo, solitamente acquisite tramite scanner, in testo digitale modificabile con un normale editor. Il testo può essere convertito in formato ASCII semplice, Unicode o, nel caso dei sistemi più avanzati, in un formato contenente anche l'impaginazione del documento.

Normalmente uno scanner acquisisce un documento – sia esso una pagina scritta o una fotografia – come immagine composta da pixel, dei quali codifica il colore.

Un programma di riconoscimento ottico dei caratteri chiede invece allo scanner di trascurare, nella codifica, colori e tonalità di grigio e analizza invece l’immagine restituita dallo scanner cercandovi le forme delle lettere alfabetiche e ricostruendo, carattere per carattere, il testo di partenza.

 

Sui sistemi OCR, utilizzati dal sistema postale degli Stati Uniti d’America fin dal 1965, v.

  • Birnbaum D.J., Optical Character Recognition & Non-Latin Alphabets, in Bits & Bytes Review, 2 (1991) 6-7, pp. 22-28.
  • Horik van R., OCR and Historical Documents: Some Programs Reviewed, in History and Computing, 4 (1992), pp. 211-220.