[freedict] Re: Poll: replace deu-eng / eng-deu

  • From: Sebastian Humenda <shumenda@xxxxxx>
  • To: freedict@xxxxxxxxxxxxx
  • Date: Sat, 9 May 2020 15:51:28 +0200

Hi Einhard

Einhard Leichtfuß schrieb am 09.05.2020, 15:05 +0200:

On 09/05/2020 12:34, Sebastian Humenda wrote:
Comparing the **current** deu-eng and the deu-eng of WikDict, they compare
roughly 82.000 for DING and 52.000 for WikDict.

I guess WikDict is expected to grow faster?

I suppose. However, I made a mistake when speaking about the headword count of
DING, <http://ftp.tu-chemnitz.de/pub/Local/urz/ding/de-en-devel/de-en.txt.gz>
has in fact > 200,000 lines (hence entries). It seems to be much larger. Sorry
about that.

To me, the current dictionary always seemed quite good, however I see
the problems inherent with the format of the Ding dictionary source.

As long as you dump everything as plain text into the TEI, the quality is
good. However, there are also a lot of incorrect entries.

The WikDict dictionary is nice since it gives examples and usage hints for
every word and translation. It however seems to not list flected forms of
verbs, in contrast to the DING dictionary.

Taking into account Karl's note on the availability of flected forms in
the WikDict source, it seems the Wikdict sources are superior to the
Ding's in most aspects.

From the encoding-quality, completely agreed. No matter what we decide for
deu-eng / eng-deu, it would be good to have flected forms for the other
WikDict dictionaries.
BTW, DING only offers deu-eng officially and just reverses the lookup for
eng-deu, as far as I can tell. Would it be better to import eng-deu from
WikDict, regardless of the decision we take for deu-eng?

Also, extracting the flected forms from the Ding sources - identifying
them as such - seems impossible to automate without heuristics.

Agreed.

    weben; wirken {vt} [textil.] | webend; wirkend | gewebt; gewoben; 
gewirkt | er/sie webt | ich/er/sie webte; ich/er/sie wob | er/sie hat/hatte 
gewebt; er/sie hat/hatte gewoben | ich/er/sie wöbe :: to weave {wove; woven} 
| weaving | woven | he/she weaves | I/he/she wove | he/she has/had woven | 
I/he/she would weave
[…]
I guess, ideally, the keys 'weben' and 'wirkend' would both be
associated with all the data in the line, somehow, i.e., synonyms and
flections of these and itself included.  I am unsure whether it is
acceptable to have several <form> or <orth> tags for several keys.

I am not sure what you mean. You can have

    <form>
        <orth>weben</orth>
        <orth>wirken</orth>
    </form>

But it would render funny.

In any case, Einhard, is there any chance that you would be willing to have a
look? I think if you are smart enough to  ignore the corner cases for the 
sake
of having a stable parsing experience, this would be a great plus.

I deem it possible to extract some valuable TEI output from the Ding
source, though requiring a notable amount of effort - depending on the
desired quality.

I would prefer the DING importer since it's the dictionary that brought me to
FreeDict :). I only started the discussion because I lack time to write a
parser and am not good enough in making compromises to get a working version.
If you do it, this poll is ended.
What language would you use?

Thanks
Sebastian

Attachment: signature.asc
Description: PGP signature

Other related posts: