[cryptome] Re: Extracting dates from OCR docs

  • From: coderman <coderman@xxxxxxxxx>
  • To: cryptome@xxxxxxxxxxxxx
  • Date: Mon, 8 Feb 2016 09:35:17 +0100

On 2/8/16, Michael Best <themikebest@xxxxxxxxx> wrote:

I'm processing and organizing the first batch of CIA docs from CREST and am
wondering if anyone can recommend any tools for extracting dates from the
briefings and memos.

the best solution i found so far is using Nuance Batch Converter Pro,
to produce a set of "Searchable PDFs" from opaque PDFs or TIFF images.

Warning! this puts all kinds of metadata into your resulting
documents, and thus may warrant a sanitization pass after
transcription/annotation.


have tried playing with customizations to some open source tools,
related to both automatic un-redaction and OCR on print documents, but
this did not reach a stable and robust capability yet...

any other suggestions from the wise crowd? :)


best regards,

Other related posts: