[freedict] Re: Poll: replace deu-eng / eng-deu

  • From: Einhard Leichtfuß <alguien@xxxxxxxxxxxxx>
  • To: freedict@xxxxxxxxxxxxx
  • Date: Sat, 31 Oct 2020 13:41:47 +0100

Hi,

I have submitted my thesis [1] by now, accompanied by a usable ding2tei
importer program.

While the program, or rather the resulting TEI [2], still has many
shortcomings (details below), I believe the latter to be worth replacing
the current deu-eng and eng-deu dictionaries.

Unless anyone objects, I will proceed to merge the ding2tei-haskell
branch with master.

I am unsure what should happen with the current deu-eng and eng-deu
dictionaries in the fd-dictionaries repository.


Precompiled dictionaries (TEI, DICT, slob) are available on my server
for now. [2]



Further Notes
=============


Notable shortcomings
--------------------

* Recognition of "to" prefixes (and subsequent removal) does not work in
  some corner cases ("to (not) eat sth.")
* Special collocates like "etw." or "sth." are not given the special
  care they deserve (they are just retained literally).
  * This is likely the most significant shortcoming.  Unfortunately, it
    is not trivial to solve properly.
  * ex.: "effect sth.", "furnish sb./sth. with sth."
* Many potential examples remain as regular entries.
* English flected forms are only shown in the eng-deu dictionary.
  * Easy to change, if I knew how to represent them in deu-eng.
* '<>' and '<some text>' are ignored.


Spanish-German dictionary
-------------------------

The Spanish-German "Ding"-formatted dictionary is not truly supported,
since the syntax is actually somewhat different.

There exists a sed script that allows it to be translated to TEI.
However, this is not to be seen as a solution.  Instead, the main
program should be adapted.


Efficiency
----------

The memory usage is heavy (4.5 GiB).  Runtime is fine (approx. 3 minutes
including compilation of the code).

In contrast, the FreeDict tools, when applied to the huge resulting TEI
dictionaries, take a lot more time: Runtime peaked at about 24 hours for
`make build-dictd' on one of the dictionaries.  Memory usage of the
tools, when high at all, is close to the above 4.5 GiB (1).


Phonetics (teiaddphonetics)
---------------------------

Teiaddphonetics unfortunately still fails due to some uncommon character
combinations, see the corresponding issue on GitHub [3].


Review & Comments
-----------------

- Code & Documentation.

I expect to get some valuable critique on the code by the people
evaluating my thesis.  I shall try to use that in order to improve my code.

Feel free to also comment on my code and the documentation.

- TEI.

An earlier version of the TEI result was briefly reviewed by Sebastian.
 I have made according changes and discussed most further changes with
him.  - Thanks a lot for all the help!

Any further comments are welcome.


Further development
-------------------

I intend to improve the importer further.  However, this is not my top
priority right now.

Comments from your side may possibly change that, though.



Regards,
Einhard


_________________________________________________________________________

Footnotes:
(1) `teiaddphonetics' once peaked at 7.7 GiB.  Seems to be lower now,
    but I have not tested properly, due in part to the mentioned bug.

Resources:
[1]
https://github.com/freedict/tools/raw/ding2tei-haskell-rewrite/importers/ding2tei/doc/thesis.pdf
[2] https://algernon.respiranto.de/ding2tei_tmp/v1.8.1-fd0.2.1/
[3] https://github.com/freedict/tools/issues/25
-- 
FreeDict - Free And Open Dictionaries
Manage your subscription at https://www.freelists.org/list/freedict
Wiki: https://github.com/freedict/fd-dictionaries/wiki
Web: http://freedict.org

Other related posts: