[freedict] Re: Poll: replace deu-eng / eng-deu

  • From: Einhard Leichtfuß <alguien@xxxxxxxxxxxxx>
  • To: freedict@xxxxxxxxxxxxx
  • Date: Mon, 14 Sep 2020 15:06:27 +0200

Hi Sebastian,

thanks for all the answers!

On 13/09/2020 21:38, Sebastian Humenda wrote:

Hi

Einhard Leichtfuß schrieb am 09.09.2020, 22:40 +0200:
To all of the remaining questions I can live without an answer (for
now); I have either found an answer myself or decided on / guessed some
probably ok answer.

I liked the structure of your document. It might be very beneifitial if you
could add some of the more complex questions, that are not specific to DING,
to the wiki, either in the FAQ or inside the HOWTO.

I am currently a little under time pressure, so not right now.  I will
try to remember to do it later.

I hope to be able to show you a preliminary TEI version this week.
Maybe you could have a look on that at some point.

 will do! But not today :).

C.12) Grouping of homographs

     * In brief: Is superEntry ok?

Piotr was already sceptical enough about superEntry. Our stylesheets at least
do not handle superEntry and also ignore hom.

Could you also give your opinion on whether I should ever use several
<sense>'s?

Note that I cannot reliably differentiate homographs with little to no
semantical relation (e.g., character: Zeichen / Rolle) from semantically
"similar" homographs (e.g., character: Buchstabe / Zeichen).

To look at the extremes, there are currently

 * 48 entries for "offen",
 * 26 entries for "turning".

What was your problem with linking that you mentioned in your other e-mail?
You can attach an id attribute to each orth or to a complete entry and can use
this to refer to it using ref. Or did you mean something else?

Note that this is not really important, but:

When I parse ~tilde references, I translate them to xr/ref tags.  The
content of xr is the plain text word, but I cannot add a @target, since
there likely are several <entry>'s that it could/does refer to.

Consider:

  Wort :: word ~character
  Rolle :: character
  Buchstabe :: character

When deriving the (inverted) eng-deu dictionary, there will be xml:id's
character.1 and character.2.

I can not derive which of them to link to.

Note that I currently target version 1.8.1 exclusively.
[…]
v1.8.1: 197,766 lines
devel:  205,287 lines

Would we get out a (of course not complete) list of DING issues that we could
report upstream to the DING developer(s)?

I am currently maintaining a sed script that fixes a lot of syntax
errors.  This is supposed to go upstream.

A.5) Quantified (or similar) usage annotations
    * Ex.: "mainly Am."
    * Ex.: "bes. Süddt.", "especially Am."
    ? How to represent the determiner?

What is the determiner here? I thought determiner are for componound 
phrases
such as lemmon tree.

"mainly", "bes.", "especially".  I thought these were determiners.

Sorry, I missed the point. I was unsure about determina and read up the
Wikipedia article, but apparently the wrong one. There is no encoding for 
this
ATM, I think. What is the Lex-0 suggestion? :) Isn't this anyway part of 
the usage? I
probably would have picked `<usg type="hint">mainly am.</usg>`, but maybe
that's too vague.

TEI Lex-0 suggests to use an attribute, but not which (there is a TODO
in the docs).  None of the <usg> annotations really fit IMO, maybe @subtype?

Can't the usg types be freely chosen?

The types, yes.  Not the attributes though.

What I would ideally like to have is something like:

  <usg type="geo" freq="mainly">Am.</usg>

Note though that I this is not a high priority currently.

A.6) Dialect / language annotations.
    a) Ex.: "[Br.]", "[Am.]", "[Ös.]", "[Sächs.]"
    b) Ex.: "[South Africa]", "[Hessen]", "[Berlin]", "[Wien]"
    d) Ex.: "[French]", "[Lat.]"
    ? Represent as <usg type="geographic">?
      * According to TEI Lex-0: "marker which identifies the place or
        region where a lexical unit is mainly used"
        * Matches c) only.
    ? Separate d)?  And represent how?
[…]
In any case, I see subtle differences and would suggest either to
be sloppy and group all these as a sort of geographic identifier (only
French/Lat. don't fit)

What to do with French/Lat. then?

What about picking one of
https://tei-c.org/release/doc/tei-p5-doc/en/html/ref-usg.html ;?

By <https://tei-c.org/release/doc/tei-p5-doc/en/html/DI.html#DITPUS>, it
should be @type=lang.

Ok, maybe you can use a list of languages, e.g.
<https://iso639-3.sil.org/code_tables/download_tables>?
It could be overkill, though.

Seems overkill to me, yes.  I do already provide a list of dialects /
regional varieties explicitly.  And I doubt there is a list of all
possible abbreviations for all such dialects / regions.

There are 3 distinct non-dialect language annotations in contrast to 37
distinct dialect / region annotations.


Greetings,
Einhard
-- 
FreeDict - Free And Open Dictionaries
Manage your subscription at https://www.freelists.org/list/freedict
Wiki: https://github.com/freedict/fd-dictionaries/wiki
Web: http://freedict.org

Other related posts: