[zxspectrum] Re: [OT] Problema con un PDF

  • From: Massimo Raffaele <massimo.raffaele@xxxxxxxxxx>
  • To: zxspectrum@xxxxxxxxxxxxx
  • Date: Tue, 17 Jul 2012 16:06:51 +0200

> Scusate l'OT. Mi rivolto agli esperti sulle scansioni. Ho un PDF che sembra
> essere il risultato di una scansione ma che mi consente comunque di
> selezionare il testo. Solo che se copio e incollo spesso trovo delle parole
> errate. Cioč copio una parola e quando la vado ad incollare č diversa
> (sembra che ci sia un OCR di mezzo). Come posso pulire il PDF originale in
> modo tale da avere il testo corretto?
>
> Grazie.
> EMG

Ciao Enrico,
hai ragione, nel senso che la pagina in cui selezioni il testo è
un'immagine scansita "grezza", e la selezione che effettui è
effettivamente una selezione + ocr (stai probabilmente usando Adobe
Reader, che nelle ultime versioni prevede questa possibilità. Io uso
Foxit da un po', non ho quel benefit).
Il fatto che ci siano errori è dovuto alla scansione non
ottimale/pulita o alla risoluzione non sufficiente, e magari anche
all'efficienza dell'ocr incorporato non paragonabile ad es. a quella
del motore di ABBYY FineReader.
Non c'è una soluzione rapida (che io sappia)... Dovresti estrarre le
pagine (ci sono programmi che lo fanno senza perdita) e pulirle
singolarmente. Ma se il problema è di risoluzione (e non di fondo
sporco, ad esempio) c'è poco da fare. A meno di usare uno di quei
programmi che aumentano la risoluzione delle immagini con algoritmi
B-Spline (ce n'è uno fenomenale), e poi ricreare il pdf e vedere se
l'ocr è più efficace.
Ma... il gioco vale la candela? (Nel senso: è così tanto il testo da
copiare, da non far preferire la correzione a mano del risultato
dell'ocr?)

Max

Other related posts: