[freedict] Re: TEI file with multiple orth and gramGrp

  • From: Sebastian Humenda <shumenda@xxxxxx>
  • To: freedict@xxxxxxxxxxxxx
  • Date: Mon, 10 Dec 2018 09:47:14 +0100

Hi Jochen

Great for getting in touch with us. I'm leaving the TEI-specifics to Piotr,
though comment on two things:

Jochen Peters schrieb am 10.12.2018,  1:03 +0100:

My goal is to have the same information in the TEI file at the end as in the
CSV. I think, backwards-compatible must be possible. But XML is not my favorit.
I see a huge XML overhead in the XML TEI format, which needs massive memory to
phrase. What's interesting about XML is that you can use css and xsl to display
things in the browser. 
I usually treat TEI as storage format and for that it does its job. When I was
traversing all our ~145 dictionaries for a project a while ago, I converted them
to a unverified JSON dialect, speeding up the parsing by factors. However, as
pivot format for dictionaries, TEI is better.

That's right. Since TEI offers the possibility to store detailed data in
"gramGrp", I would rather use it instead of "desc" with semicolons.
Unfortunately I only find a few variations in all documentations about the TEI
format. Sometimes it is "v", sometimes "verb" ... that is very inconsistent.
Maybe gram.descs with semicolons is the best way (?)
You can define an ontology, Karl does this for the WikDict dictionaries, example
here (search for tagsDecl):
https://download.freedict.org/generated/fra-deu/fra-deu.tei
The corresponding ontology is here:
https://github.com/freedict/fd-dictionaries/blob/master/shared/FreeDict_ontology.xml
Pull requests are welcome!

Cheers
Sebastian
-- 
Web: https://www.crustulus.de ;(English|Deutsch)  | Blog: 
https://www.crustulus.de/blog
FreeDict: Free multilingual dictionaries - http://www.freedict.org
Freies Latein-Deutsch-Wörterbuch: https://www.crustulus.de/freedict.de.html

Attachment: signature.asc
Description: PGP signature

Other related posts: