[ILUGC] Re: Looking for contribution - scrap punjabi dictionary for punjabi wikitionary

  • From: sibi kanagaraj <commonssibi@xxxxxxxxx>
  • To: ilugc@xxxxxxxxxxxxx
  • Date: Wed, 27 Jul 2016 08:49:10 +0530

Hi Shrini ,
On Tue, Jul 26, 2016 at 10:41 PM, Shrinivasan T <tshrinivasan@xxxxxxxxx>
wrote:

Punjabi wikitionary https://pa.wiktionary.org is looking for contributors.

There is a punjabi dictionary

From
http://dsalsrv02.uchicago.edu/cgi-bin/philologic/getobject.pl?p.0:0.singh

To
http://dsalsrv02.uchicago.edu/cgi-bin/philologic/getobject.pl?p.0:379.singh

Which has Punjabi words, english pronunciation and meaning in english.



I have earlier done something similar for Tamil in the same Digital
Dictionaries of South Asia (DDSA). It was done using Beautiful Soup .

The code <https://github.com/commonssibi/TamilLexicon/blob/master/python>
might be very raw with naive functions .But nonetheless it will work (It
worked for me to scrap all the Tamil Words) .

A short explanation of the code .

In the DDSA they have uploaded the Punjabi/Tamil words using the span class
= hi

Example :

<span class=head><span class=hi>Á à¨†</span></span>

Now what the code does is that it picks up all the span class which has
"hi" , slightly curates it , uses the UTF8 encoding and prints it .






These words can be exported to Punjabi wiktionary.

We are looking for contributors.

The tasks are to scrap these pages, clean up data and upload to
pa.wiktionary.org

Reply here or contact me if you are interested in contributing.



Thanks

--
Regards,
T.Shrinivasan


My Life with GNU/Linux : http://goinggnu.wordpress.com
Free E-Magazine on Free Open Source Software in Tamil : http://kaniyam.com

Get Free Tamil Ebooks for Android, iOS, Kindle, Computer :
http://FreeTamilEbooks.com
_____________________________________
ILUGC List: http://www.freelists.org/list/ilugc
ILUGC Web: http://ilugc.in/



_____________________________________
ILUGC List: http://www.freelists.org/list/ilugc
ILUGC Web: http://ilugc.in/

Other related posts: