[freedict] Re: Poll: replace deu-eng / eng-deu

  • From: Einhard Leichtfuß <alguien@xxxxxxxxxxxxx>
  • To: freedict@xxxxxxxxxxxxx
  • Date: Fri, 8 May 2020 23:57:04 +0200

Hi,

can somebody say anything on how the quality of the two sources compare,
disregarding how easily they can be parsed?

To me, the current dictionary always seemed quite good, however I see
the problems inherent with the format of the Ding dictionary source.

Is it worth consideration to have two different dictionaries for the
same (ordered) pair of languages?


I have just inspected the Ding dictionary sources a little.  I could not
find any description of the format, so I had to guess from context.  The
format should roughly follow the following EBNF:


line = group {'|' group} '::' group {'|' group}
 -- equal number of groups on both sides

group = unit {';' unit} {['{' word_type '}'] ['[' annotation ']']}

unit = words {['[' annotation ']'] [words] ['{' word_type '}'] [words]}
     | words '{' word_type '}' '/' words '{' word_type '} ...
 -- second form is problematic

word_type = 'vt' | ' vi' | 'pl' | '+Gen.' | 'm' | 'f' | ...
 -- '+Gen.' probably occurs in different places than the other


Unfortunately, the above EBNF is ambiguous, in particular it is unclear
when [] and {} annotations belong to a single unit or a group.  It seems
to be the case, that {} in most cases applies to a whole group and that
[], if placed after {}, also applies to the whole group, and otherwise
to a single unit.  (There is at least one exception to this rule: 'Acht
{f}; Achter {m} [Ös.] [Schw.]')

A notable drawback of the dictionary source is that most of the {}
annotation is only on the german side.  It should in some cases be
possible though to map the annotations to the other side (e.g., {v*}, {n}).

Furthermore, there are sometimes further annotations, in parantheses
(<(>, <)>).  Like the []-annotations they should not be part of the
keyword, but rather part of an associated value, similar to gramGrp.  Is
there a way to specify such in TEI?

Similarly, some keywords are continued to phrases, which likely should
also be treated as values.

By the way, can the diffrence between transitive and intransitive verbs
({vt}/{vi}) be encoded in TEI?

Also, can {+Gen.} be encoded in TEI?


Greetings,
Einhard


On 08/05/2020 21:10, Sebastian Humenda wrote:

Hi all

We have shipped eng-deu and deu-eng for a long time now in an unmodified
state. For a long time, the source, as imported from the University of
Chemnitz  (TUC), has been one of the best with the given licence. However, the
original script to import the dictionary is gone  I have failed multiple times
now to write a new importer. The reason is the blurry description and the even
more irregular encoding of all headwords. "DING" is Dictionary nicer grep --
and this is how the format really looks like.

Instead of further investing time, I would propose to replace this dictionary
with the ones provided by WikDict (thanks to Karl). This is not a solution for
all of our dictionaries. There is a value in having a variety of different
input sources for dictionaries, but for this particular one, I would say that
we should replace it.

I would appreciate your feedback.
Cheers
Sebastian

-- 
FreeDict - Free And Open Dictionaries
Manage your subscription at https://www.freelists.org/list/freedict
Wiki: https://github.com/freedict/fd-dictionaries/wiki
Web: http://freedict.org

Other related posts: