[Ilugc] Request for a vps to run OCR for wiki source

  • From: tshrinivasan@xxxxxxxxx (Shrinivasan T)
  • Date: Thu, 11 Feb 2016 04:32:07 +0530

Recent slay, Tamilnadu government released 2000+ nationalized books in
public domain.

The scanned PDF books are in
http://tamilvu.org/library/nationalized/html/books-list.htm

Announcement is here
https://commons.wikimedia.org/wiki/File:Tamil-Nadu-Nationalized-Books-Public-Domain-Declaration.jpg

Tamil wiki source community is now uploading all the nationalized books to
http://commons.Wikimedia.org so that they can be used in
http://ta.wikisource.org

Wiki source community usually types the content from PDF files manually.

But typing manually 2000+ books is too tough.

Hence, I wrote a python script to use Google drive OCR to extract text from
the PDF files and to update relevant wiki source page.

See these links.

https://github.com/tshrinivasan/google-ocr-python

https://github.com/tshrinivasan/OCR4wikisource

Oriya, Bengali, Kannada and tamil wiki source communities started to use
this script and regularly report on bugs, enhancement requests.

Tamil wikisource community is facing much internet connectivity issue. So
they have to keep on monitoring manually for the script to running and
uploading files to google drive.

It will be nice to have a VPS running this script so that the issues by
network is solved.

Requesting to donate a VPS for two or three months so that we can upload
all 2000+ books in tamil wiki source along with the OCRed text, with
multiple user accounts.

Reply here or to me of anyone is interested in donating a VPS.
1 GB or 2GB ram/ 40GB hard disk/ Ubuntu are the requirements.

Thanks.

Other related posts:

  • » [Ilugc] Request for a vps to run OCR for wiki source - Shrinivasan T