[freedict] Re: Inflected forms for WikDict dictionaries

  • From: Karl Bartel <karl@karl.berlin>
  • To: "FreeDict (Mailingliste)" <freedict@xxxxxxxxxxxxx>
  • Date: Sun, 9 Aug 2020 18:07:53 +0200

* If those forms are to be presented in a dictionary, some smart processing
has to be done
* Since smart processing is needed anyway, there is no harm in dumping in
all forms, even obscure ones (or are we concerned with size?)

I cannot follow. Smart processing is probably some sort of adding back the
forms that were stripped?


Yes. E.g. mapping "gehe" with metadata "first person, singular" to "ich
gehe" when desired.


If so, does your second point say that it in fact is
superfluous to remove them in the first place?


Not for all use cases. For human readable dictionaries, removing them
probably is superfluous. But when you want to map conjugated forms in a
text to the dictionary entry, having pronouns in the string is an obstacle.
Ideally you have access to both versions (with and without pronouns,
exclamation marks, etc.) in some way. I see three ways to do this:
1. Keep pronouns in and strip as needed (seems to conflict with TEI
expectations)
2. Strip pronouns and add as needed (requires some mapping tables which we
don't have at the moment)
3. Add both (probably required some tag in a custom namespace, so it will
be ignored by users of pure TEI)

I was suggestion option 2 here.


I would say that size is an issue to some extend, dictionaries over 100M
are
hard to handle by Git and GitHub for instance then advocates a different
service for large files.


For these specific dictionaries, it should not be an issue, since they are
auto generated and thus not in the git repo. It could become a problem for
other repos, though.


Also, I think such large dictionaries are hard to
handle und slow to process with the XSLT style sheets.


Ah yes. Although this is mostly due to the inefficiency of our XLST (the
files can be processed with other tools reasonably fast). But that is what
we have right now, so it does matter.


I assume auxiliary verbs ("werde" in the example below) are counted as
part
of the form itself and should stay. They are different depending on the
verb and can't be readded without further input, so this is also more
practical.

"Below" refers to some spot in the TOFU?


Yes, I was referring to the "er/sie/es werde stehlen" example. So the
specific question is, should it be
"werde stehlen"
or
"stehlen"
The former includes the auxiliary verb, which would be hard to add back
automatically. The latter is more concise and more useful when trying to
match words from texts.


Maybe we should have an IRC meeting?


I'll hang out in IRC from time to time today and tomorrow.

Karl

Other related posts: