[freedict] Re: Inflected forms for WikDict dictionaries

  • From: Einhard Leichtfuß <alguien@xxxxxxxxxxxxx>
  • To: freedict@xxxxxxxxxxxxx
  • Date: Mon, 31 Aug 2020 04:44:41 +0200

Hi,

On 09/08/2020 18:07, Karl Bartel wrote:

If so, does your second point say that it in fact is
superfluous to remove them in the first place?


Not for all use cases. For human readable dictionaries, removing them
probably is superfluous. But when you want to map conjugated forms in a
text to the dictionary entry, having pronouns in the string is an
obstacle.
Ideally you have access to both versions (with and without pronouns,
exclamation marks, etc.) in some way. I see three ways to do this:
1. Keep pronouns in and strip as needed (seems to conflict with TEI
expectations)
2. Strip pronouns and add as needed (requires some mapping tables which we
don't have at the moment)
3. Add both (probably required some tag in a custom namespace, so it will
be ignored by users of pure TEI)

I was suggestion option 2 here.

I just noticed an example <entry> in the TEI documentation, which
encodes both the pronoun and the inflected verb:

  <entry>
   <form type="inflected">
    <gramGrp>
     <per value="2"/>
     <number value="singular"/>
     <tns value="present"/>
     <mood value="indicative"/>
    </gramGrp>
    <form type="personalpronoun">
     <orth>du</orth>
    </form>
    <form type="headword">
     <orth>
      <oRef>triffst</oRef>
     </orth>
    </form>
   </form>
  </entry>

https://www.tei-c.org/release/doc/tei-p5-doc/en/html/ref-tns.html

I am not convinced that this is a good thing to do though.  (In
particular, we are not discussing <entry>s here.)

I assume auxiliary verbs ("werde" in the example below) are counted as
part
of the form itself and should stay. They are different depending on the
verb and can't be readded without further input, so this is also more
practical.

"Below" refers to some spot in the TOFU?


Yes, I was referring to the "er/sie/es werde stehlen" example. So the
specific question is, should it be
"werde stehlen"
or
"stehlen"
The former includes the auxiliary verb, which would be hard to add back
automatically. The latter is more concise and more useful when trying to
match words from texts.
I am unsure whether there is any value in having either of the two.  The
basic future form (in German) is always constructed as "werde" + infinitive.

Specifying the infinitive as future form seems certainly odd to me.

Things are a little different in the perfect tense ("be"/"sein" vs.
"have"/"haben").  Here, the auxiliary word does carry information.

Note that in some cases (such as with "stehlen"), both auxiliary verbs
are valid.

This would ideally be represented like

  "gestohlen" + ("haben" / "sein")

I fear though that this is not (easily) doable in TEI.


By the way, the reason I found that example above and started typing
this message is that I searched for a way to represent participles (in
the context of ding2tei), for which I only found an example in the TEI
Lex-0 spec (redacted):

  <form type="inflected">
     <gramGrp>
        <gram type="participle">pap</gram>
     </gramGrp>
     <orth>gone</orth>
  </form>

 -
https://dariah-eric.github.io/lexicalresources/pages/TEILex0/TEILex0.html#index.xml-body.1_div.3_div.3

There, the <form[@type="inflected"> is right below <entry>, next to
<form[@type="lemma">.  This seems not desired within Freedict, right?

I would hence use the above format inside the main <form>.  Any objections?


Regards,
Einhard
-- 
FreeDict - Free And Open Dictionaries
Manage your subscription at https://www.freelists.org/list/freedict
Wiki: https://github.com/freedict/fd-dictionaries/wiki
Web: http://freedict.org

Other related posts: