[recoll-user] Re: recoll ocr with tesseract not working on windows 10

  • From: Jean-Francois Dockes <jfd@xxxxxxxxxx>
  • To: recoll-user@xxxxxxxxxxxxx
  • Date: Sun, 13 Jun 2021 08:22:51 +0200


Hi,

I had broken the tesseract script with a stupid, untested, change (probably I 
had not seen the
problem because of the cache...).

Please find attached the corrected script, it seems to work for me.
To be installed into c:/program files 
(x86)/recoll/share/filters/rclocrtesseract.py in replacement
of the bad distributed script.

My apologies for the time wasted, I should be more careful...

Cheers,

jf


Attachment: rclocrtesseract.py
Description: Binary data


Àngel Martínez writes:
Hi,

I'm trying to set up to work recoll with tesseract on windows 10 with no 
success.

I tried almost everything I could, following 
https://www.lesbonscomptes.com/recoll/usermanual/webhelp/docs/RCL.INDEXING.OCR.html
 and 
https://www.lesbonscomptes.com/recoll/manpages/recoll.conf.5.html

My recoll.conf looks like this:

ocrprogs = tesseract
pdfocr = 1
#tesseractcmd = C:/Program Files (x86)/Tesseract-OCR/tesseract.exe
# I tried installing tesseract x86 version on other location to avoid spaces 
in the foldername
tesseractcmd = 
c:/Users/angel/AppData/Local/Programs/Tesseract-OCR/tesseract.exe
tesseractlang = eng

The folder ocrcache gets created every time I rebuild the index in recoll 
(I'm trying directly
rebuilding the index) and contains two folders (objects, paths) and no files.
Also, I close and open recoll every time I modify the recoll.conf.
Tesseract installation runs fine (at least by the commandline). 
I have searched over and over on google/duckduckgo without finding what can 
be the cause.
Logs show no error about tesseract.

Is there any kind soul that could give me a hand ;), thanks in advanced.

Have a good day.

Salut! 

Àngel Martínez 

Other related posts: