[freedict] Re: Making Dictionaries

  • From: Sebastian Humenda <shumenda@xxxxxx>
  • To: freedict@xxxxxxxxxxxxx
  • Date: Sun, 4 Jul 2021 12:31:58 +0200

Hi Julius

Julius Hamilton schrieb am 01.07.2021, 15:54 +0200:

This already exists and I would suggest participating in the DING project.
They would probably benefit a lot from a more regular encoding, i.e. cleanup
of that data would certainly help.

On https://ftp.tu-chemnitz.de/pub/Local/urz/ding/de-en/
you can find the dictionaries along with a README. It contains the e-mail
address of the maintainer and I would suggest discussing with him the changes 
that you would like to make.
Einhard recently wrote an importer which you can find here:

https://github.com/freedict/tools/tree/master/importers/ding2tei

He created a set of patches to correct irregularities and issues in the
dictionary. Einhard, did you have time to look into DING 1.9? Maybe it would
be great to import 1.9 and see what can be edited and improved from there on?

We have many orphaned dictionaries, just go to
fd-dictionaries and grep for `up for grabs`.

Sorry, I'm not sure what you mean. Do you mean the FreeDict homepage or a
GitHub repo?

I am sorry for not being clear. fd-dictionaries is a repository and it
contains, among others, those dictionaries which do not have a maintainer.
Please see
https://github.com/freedict/fd-dictionaries
Each TEI file contains a header with the `resp` information containing the
maintainer. A list of maintained dictionaries is here:
https://freedict.org/community/#active-dictionary-maintainers
and  at
https://github.com/freedict/fd-dictionaries/wiki/FreeDict-HOWTO-%E2%80%93-Writing-Text-Encoding-Initiative-XML-Files
you can search  for "resp" and find the documentation for it, in general, the
HOWTO is a resource to have a look at:
https://github.com/freedict/fd-dictionaries/wiki/FreeDict-HOWTO


If you are willing to write an importer, I suggest you take a look at our
issues <https://github.com/freedict/fd-dictionaries/issues> and pick a
suitable language.

I see a number of bug reports here but I'm not sure how I would get started
in writing an importer, how would I do that?

Select a dictionary, select a programming language and write the logic. An
That is straight forward: select a dictionary, select a programming language
and then tell us what you've picked :). An importer takes the dictionary that
you've selected as input and outputs a TEI XML file. You can take a look at
the fd-dictionaries repo (see above and get familiar with the TEI XML that
we're using. Please don't hesitate to ask in case you cannot make sense of
something. The ding2tei importer for instance reads the de-en.txt and outputs
the deu-eng.tei dictionary.

What about an algorithmically generated dictionary, similar to Linguee,
which is built from a parallel corpus? Has anyone considered making a
FreeDict that way?

I have worked on something vaguely related where I used an AI to generate a
thesaurus using FreeDict word lists. If you are willing to do something there,
you are welcome, but we don't have any plans at the moment.

Cheers
Sebastian

Attachment: signature.asc
Description: PGP signature

Other related posts: