[freedict] Re: Spanish-English Dictionary by The University of Granada (License + Format Conversion)

  • From: Sebastian Humenda <shumenda@xxxxxx>
  • To: freedict@xxxxxxxxxxxxx
  • Date: Wed, 7 Apr 2021 21:27:52 +0200

Hello Marco

consistently_gaboons schrieb am 07.04.2021, 16:22 -0000:

However, his dictionary is stored in a MySQL database which he manages online. 
The author used to publish his database monthly in Babylon format (.bgl) but 
not anymore. The latest version in .bgl format is from August 2020. Download 
link:

Is there a chance to get access to the database? I could imagine a database
dump or at least an export of the relevant tables. If the database contains
only the dictionary, i.e. no user information or other sensitive data, I would
say the simplest would be to get the dictionary from the database dump/export.
Could you ask whether a database dump could be made or somebody from our
project could access to the DB?
If the DB does not contain sensitive data, you can do the export using:

    mysqldump -u username -p --all-databases
    (replace username by admin or alike).
    You can send me the file or the link to it privately.

He does not have the programming skills to export the dictionary in .csv or 
other format. He said that he would need to ask a Colombian Programmer that 
collaborates with him in his spare time.

No problem, if we can find out more about the database, we might get the export
(which is anyway CSV-alike).

It might be necessary to write a script and might be a challenging work since 
the Spanish-English Dictionary has the following characteristics:
1) Many entries (>120.000)
2) Many synonyms for each entry
3) Example sentences with translations

We could improve on that gradually: extract headwords and simple translations
first, extract synonyms and example sentences later.

Regarding PyGlossary and Babylon: there are two caveats with this approach.
The first is that PyGlossary supports only an outdated dialect of the FreeDict
format. The second, bigger one is that the data contain unparsed fragments
like HTML and formatting characters that make the dictionary hardly usage. I
am therefore much more interested in the actual data from the DB.

Thanks!
Sebastian

Attachment: signature.asc
Description: PGP signature

Other related posts: