[freedict] Re: Poll: replace deu-eng / eng-deu

  • From: Sebastian Humenda <shumenda@xxxxxx>
  • To: freedict@xxxxxxxxxxxxx
  • Date: Sun, 13 Sep 2020 21:38:19 +0200

Hi

Einhard Leichtfuß schrieb am 09.09.2020, 22:40 +0200:

To all of the remaining questions I can live without an answer (for
now); I have either found an answer myself or decided on / guessed some
probably ok answer.

I liked the structure of your document. It might be very beneifitial if you
could add some of the more complex questions, that are not specific to DING,
to the wiki, either in the FAQ or inside the HOWTO.

I hope to be able to show you a preliminary TEI version this week.
Maybe you could have a look on that at some point.

 will do! But not today :).

C.12) Grouping of homographs

     * In brief: Is superEntry ok?

Piotr was already sceptical enough about superEntry. Our stylesheets at least
do not handle superEntry and also ignore hom.

What was your problem with linking that you mentioned in your other e-mail?
You can attach an id attribute to each orth or to a complete entry and can use
this to refer to it using ref. Or did you mean something else?

Note that I currently target version 1.8.1 exclusively.
[…]
v1.8.1: 197,766 lines
devel:  205,287 lines

Would we get out a (of course not complete) list of DING issues that we could
report upstream to the DING developer(s)?

I actually like the TEI Lex-0 standard, in particular:

 i)   b) from above:  a fixed listed of good @type's (see the
      comparison table at [10]).  How would I represent
      @type="textType" (e.g. bibl., poet., admin., journalese) or
      @type="attitude" (e.g. derog., euph.), which do not have an
      equivalent in the TEI suggested @type's?
      ? Should I just use these as suggested in TEI Lex-0, thereby
        creating a mixture between TEI and TEI Lex-0?
[…]

It all boils down to somebody reading the document, defining our specific
requirements and potentially modification **and** implementing it.

I intend to use the TEI Lex-0 guidelines as a supplement to TEI
Freedict, that is, wherever they do not conflict.

Sure, and I'll make sure to read your XML and give you feedback.

A.5) Quantified (or similar) usage annotations
    * Ex.: "mainly Am."
    * Ex.: "bes. Süddt.", "especially Am."
    ? How to represent the determiner?

What is the determiner here? I thought determiner are for componound 
phrases
such as lemmon tree.

"mainly", "bes.", "especially".  I thought these were determiners.

Sorry, I missed the point. I was unsure about determina and read up the
Wikipedia article, but apparently the wrong one. There is no encoding for 
this
ATM, I think. What is the Lex-0 suggestion? :) Isn't this anyway part of the 
usage? I
probably would have picked `<usg type="hint">mainly am.</usg>`, but maybe
that's too vague.

TEI Lex-0 suggests to use an attribute, but not which (there is a TODO
in the docs).  None of the <usg> annotations really fit IMO, maybe @subtype?

Can't the usg types be freely chosen?

A.6) Dialect / language annotations.
    a) Ex.: "[Br.]", "[Am.]", "[Ös.]", "[Sächs.]"
    b) Ex.: "[South Africa]", "[Hessen]", "[Berlin]", "[Wien]"
    d) Ex.: "[French]", "[Lat.]"
    ? Represent as <usg type="geographic">?
      * According to TEI Lex-0: "marker which identifies the place or
        region where a lexical unit is mainly used"
        * Matches c) only.
    ? Separate d)?  And represent how?
[…]
In any case, I see subtle differences and would suggest either to
be sloppy and group all these as a sort of geographic identifier (only
French/Lat. don't fit)

What to do with French/Lat. then?

What about picking one of
https://tei-c.org/release/doc/tei-p5-doc/en/html/ref-usg.html ;?

By <https://tei-c.org/release/doc/tei-p5-doc/en/html/DI.html#DITPUS>, it
should be @type=lang.

Ok, maybe you can use a list of languages, e.g.
<https://iso639-3.sil.org/code_tables/download_tables>?
It could be overkill, though.


If I understand this slightly confusing page, it would in principle fine to
choose any type. If that were the case, I would at least document the choice
in the TEI header. I just checked the dict style sheets: they ignore the type
completely ;). It is really a parsing help, which strengthens the argument to
document your choice in the header.

Regarding where to document: in the fileDesc tag, you can have a noteStmt:

```xml
<notesStmt>
  <note type="status">small</note> <!-- mandatory for our DB -->
  <note xml:lang="de"> <!-- can be freely chosen -->
    <list><item>blah</list>
  </note>
</notesStmt>

You can use both paragraphs (p) or lists as above and have multiple notes. I 
think you can add this straight away.

So I would just add plain text, such as
 <item>@type="lang" indicates a language</item> ?

If you mention the node name as well, sure.

A.9.2) Date
      * The Ding is annotated with both a version and a date.
      ? How/whether to represent the date?>
In publicationStmt, there can be:

    <date when="2017-11-18">Nov 18, 2017</date>

Shouldn't this be the date of generation of the TEI file, which is
distinct from the Ding's publication?

Yup, the DING date / version should probably go to the sourceDesc then.

Regards
Sebastian

Attachment: signature.asc
Description: PGP signature

Other related posts: