[freedict] Re: Inflected forms for WikDict dictionaries

  • From: Sebastian Humenda <shumenda@xxxxxx>
  • To: freedict@xxxxxxxxxxxxx
  • Date: Sun, 9 Aug 2020 14:36:09 +0200

Hi Karl

Karl Bartel schrieb am 29.07.2020, 12:52 +0200:

If we want to keep all presentational aspects out, the solution seems to
necessarily be:
* Remove exclamation marks

Yes, from my side.

* Remove pronouns

Agreed.

* If those forms are to be presented in a dictionary, some smart processing
has to be done
* Since smart processing is needed anyway, there is no harm in dumping in
all forms, even obscure ones (or are we concerned with size?)

I cannot follow. Smart processing is probably some sort of adding back the
forms that were stripped? If so, does your second point say that it in fact is
superfluous to remove them in the first place?
I would say that size is an issue to some extend, dictionaries over 100M are
hard to handle by Git and GitHub for instance then advocates a different
service for large files. Also, I think such large dictionaries are hard to
handle und slow to process with the XSLT style sheets.

I assume auxiliary verbs ("werde" in the example below) are counted as part
of the form itself and should stay. They are different depending on the
verb and can't be readded without further input, so this is also more
practical.

"Below" refers to some spot in the TOFU?

Does anyone disagree? Would such data be actually helpful to anyone or will
it just bloat the dictionary, since we won't be able to include it in our
exported dictionaries easily?

Sorry, I am unable to connect this to the actual example that you are
referring to.

Maybe we should have an IRC meeting?

Cheers
Sebastian

Attachment: signature.asc
Description: PGP signature

Other related posts: