[freedict] Re: Poll: replace deu-eng / eng-deu

  • From: Sebastian Humenda <shumenda@xxxxxx>
  • To: freedict@xxxxxxxxxxxxx
  • Date: Sun, 29 Nov 2020 22:18:00 +0100

Hi Einhard

Einhard Leichtfuß schrieb am 31.10.2020, 13:41 +0100:

I have submitted my thesis [1] by now, accompanied by a usable ding2tei
importer program.

Congratulations! Sorry that I did not come back to you earlier. You have
really worked with a great love to detail and I am happy that we have you on
board :).

Unless anyone objects, I will proceed to merge the ding2tei-haskell
branch with master.

I do, but for the reason that I would like to review your code superficially
beforehand. Please give me another week and I'll merge it.

I am unsure what should happen with the current deu-eng and eng-deu

I'll remove them from the repository fd-dictionaries, since they have a new
home at https://download.freedict.org/generated

Spanish-German dictionary
-------------------------

The Spanish-German "Ding"-formatted dictionary is not truly supported,
since the syntax is actually somewhat different.

That's a pitty. The DING format is just too sloppy.

There exists a sed script that allows it to be translated to TEI.
However, this is not to be seen as a solution.  Instead, the main
program should be adapted.

It's not pressing, but maybe you would find some time in the future to do
this.

Efficiency
----------

The memory usage is heavy (4.5 GiB).  Runtime is fine (approx. 3 minutes
including compilation of the code).

NP.

In contrast, the FreeDict tools, when applied to the huge resulting TEI
dictionaries, take a lot more time: Runtime peaked at about 24 hours for

A problem that we may want to solve in 2021. Behind the scenes, there were
discussions to switch our conversion to PyGlossary or a similar tool. This
would certainly improve the situation, but we need to make sure that
PyGlossary supports at least the complexity of dictionaries as our style
sheets.

Phonetics (teiaddphonetics)
---------------------------

Teiaddphonetics unfortunately still fails due to some uncommon character
combinations, see the corresponding issue on GitHub [3].

Maybe a Perl monk is on the list that may be willing to help. Judging  from
the code, the characters are already quoted, but it's unicode that these
functions don't understand. I'm not a Perl-native.

Review & Comments
-----------------

- Code & Documentation.

I expect to get some valuable critique on the code by the people
evaluating my thesis.  I shall try to use that in order to improve my code.

Cool!

- TEI.

An earlier version of the TEI result was briefly reviewed by Sebastian.
I have made according changes and discussed most further changes with
him.  - Thanks a lot for all the help!

Again, it's your hard work, so thanks!

Further development
-------------------

I intend to improve the importer further.  However, this is not my top
priority right now.

I personally would like to push upstream to fix the most problematic syntax
errors in their dictionaries. That would certainly help for the importer as
well.


Cheers
Sebastian

Attachment: signature.asc
Description: PGP signature

Other related posts: