[freedict] Re: TEI file with multiple orth and gramGrp

  • From: Jochen Peters <jochen.peters@xxxxxxxxxxxxxxxxxx>
  • To: freedict@xxxxxxxxxxxxx
  • Date: Mon, 10 Dec 2018 01:15:27 +0100

Oh, that was my first project handling TEI files: 
https://github.com/no-go/offlineTranslator

Am Mon, 10 Dec 2018 01:03:07 +0100
schrieb Jochen Peters <jochen.peters@xxxxxxxxxxxxxxxxxx>:

Dear Piotr,

thanks for your feedback. I add the answer about the project
background to the end ;-)

The reason I'm asking is that if this is a digitization issue then
I might have an avenue that could benefit both Freedict and a ...
variants. The primary source of the problem seems to be coming from
a morphologically rich language to a morphologically impoverished
language.

This suggests to do the translation in a different direction or
(which I don't like) make 3 TEI files (for each "orth").

My general reaction is to congratulate you on the instinct -- this
looks like a very sensible encoding. A small but important challenge
for Freedict lies in the rendering this into DICT or other
protocols, I feel. And it feels doable and useful for the project,
because this sort of challenges are going to crop up.

That's exactly how I think it is. I think others certainly have the
same problem. It took me a few hours to get everything I needed
together to get the TEI format that way.

So say (oh I can't shut up..) have you / are you willing to give
this a go vis-a-vis Freedict XSL stylesheets and potentially
suggest some backwards-compatible enrichment to them? I guess that
in DICT, which is the most primitive of our display protocols, we
are looking at displaying ...

My goal is to have the same information in the TEI file at the end as
in the CSV. I think, backwards-compatible must be possible. But XML
is not my favorit. I see a huge XML overhead in the XML TEI format,
which needs massive memory to phrase. What's interesting about XML is
that you can use css and xsl to display things in the browser. 

...
There could be some glitches based on the attribute values, but that
doesn't sound like a big challenge. You probably don't want to
display the numbers for each set of grammatical features, just to
group them between semicolons or so. Right?

That's right. Since TEI offers the possibility to store detailed data
in "gramGrp", I would rather use it instead of "desc" with
semicolons. Unfortunately I only find a few variations in all
documentations about the TEI format. Sometimes it is "v", sometimes
"verb" ... that is very inconsistent. Maybe gram.descs with
semicolons is the best way (?)

PROJECT BACKGROUND

The "project" to make a TEI file from this CSV file is a combination
of several randomities. Actually I don't need this TEI file myself.
The randomness is as follows:

1) A long time ago I wanted to make a German Thesaurus app that is
fast and works offline. I found a thesaurus for foreigners exciting
to learn a language better. There are many words that don't appear in
dictionaries but are used on the street - partly with a different
meaning. Later I wanted to make myself a German-English app (also
offline) and came across freedict as a database. I then read the TEI
formats as good as I could with the app... there were also first
problems. Also here I thought, an app with e.g. a Kurdish-English
dictionary was quite nice. Also it should be FOSS and the f-droid
"store" is my favorite choice. It should be as open and free as
possible.

2) A few weeks ago I programmed a keyboard under Android, which
should look nice and is significantly reduced. 

3) I met a young woman studying Jewish. I don't speak it myself and I
can't speak Hebrew either. Now the woman told me how hard it is to
get a good electronic reference book in Jewish. Scan this letters is
very difficult and when she looks up a website with her mobile phone
or tablet, she can only enter Hebrew and not the Jewish language
characters.

Now I thought to myself: Hey, that costs me a day's work to make a
Jewish keyboard. My thesaurus can also easily be moved to another
data source. I then searched the internet for a yid-eng opensource
project, and found only institute pages that didn't offer their data
for download. In the metadata of my TEI file, I have the (from my
point of view) best online database I could find. I had already
requested a CSV file via eMail after 24h, which could be used in my
app a few hours later. Later I programmed a Jewish keyboard for it.
They sent me the CSV dataset under the
http://creativecommons.org/licenses/by-nc/3.0/us/ . I argued this
way: It would be a pity if the page doesn't exist anymore or
something else happens and all the work disappears into a shelf. As
TEI format and with github and freedict everyone would benefit and
would help everyone who wants to work with it. In short: the record
is also stored in a database, it is not from me and the nice young
woman I have not met again :o)

FINALLY

I translated some text parts here with www.DeepL.com/Translator and I
hope, you will understand everything :o) These are the projects I
made myself, as I mentioned above:

offline "Dictionary" Yiddisch-English
https://github.com/no-go/Yid2Eng

Yiddisch FOSS Keyboard (alternative Keyboard to the google version)
https://github.com/no-go/YiddishKeyboard

The CSV comes from http://www.cs.uky.edu/~raphael/ and its content is
cultivated by Prof. Dr. Marion Aptroot (chair of Abteilung für
Jiddishe Kultur, Sprach, und Literatur).

best regards,
Jochen

--
FreeDict — Free And Open Dictionaries
Manage your subscription at //www.freelists.org/list/freedict
Wiki: https://github.com/freedict/fd-dictionaries/wiki
Web: http://freedict.org

Other related posts: