[freedict] Re: pronunciation formatting in WikDict dictionaries

  • From: Einhard Leichtfuß <alguien@xxxxxxxxxxxxx>
  • To: freedict@xxxxxxxxxxxxx
  • Date: Sat, 2 Jan 2021 06:02:17 +0100

Hi Piotr,
On 02/01/2021 05:08, Piotr Bański wrote:

Hi Einhard,

On 31/12/2020 20:45, Einhard Leichtfuß wrote:
Hi,

I have just verified that only autogenerated dictionaries are affected,
i.e. none in the fd-dictionaries repository, presumably only WikDict
ones.

If I understand your argumentation correctly, you consider only cases
where there is used one of square brackets and slashes exclusively.

Ouch, yes -- that was indeed my assumption. I should have been more
alert to the subject line! My apologies.

I actually didn't notice that either.

We could do something like the following, to preserve both kinds of info:

1. render slanted brackets around a type-less <phon>
2. use type="narrow" for narrow (or allophonic, or phonetic -- these
terms are equivalent, though some are more theory-laden than others)
transcription, and render square brackets around <phon type="narrow">

You mean <pron />, not <phon />, right?

(which is consistent with your intuition mentioned below)

This way, (1) covers the general cases uniformly, and (2) catches the
extras.

Sounds generally good.

However, to me, it seems more proper to always provide a type (when both
brackets and slashes are present in the source); otherwise, I'd read a
missing type as a wildcard type.  I am very new to XML and TEI though,
so I do not know common practice.  Also, it does not really matter in
practice.

I am not really familiar with the rendering; are there many places where
we'd have to add the brackets?


However, the Wiktionary uses both, as indicated in its page on phonetics
[0].  It does clearly distinguish between slashes and (square)
brackets--for phonemics and ponetics, respectively--albeit only mentions
the latter to be used for distinction between dialects.  The earlier
linked Wikipedia page [1] instead also specifies that the
[]-transcription may be helpful in general to non-native speakers.  (The
example given, "la bamba" (es), is provided with a different
[]-transcription in the Wiktionary, though.)

As far as I understand it, the square bracket / phonetic version is
generally more valuable, in particular to non-native speakers.  Also,
given that the Wiktionary in some cases provides different phonetics for
different accents, we might want to retain these different phonetics.

I'd rather not get into the discussion of whether it helps or not,
because that hugely depends on the language material and on the learner.
In essence, one might argue that it often provides too much information
that many learners won't be able to interpret correctly (and it does so
in a bit unbalanced manner: you get to see the phonetic effects inside
words while losing the sometimes identical effects that apply across
words -- because there's no way to indicate them sensibly, you'd need to
list the contexts for that).

BUT, crucially, we don't need to bother, and can just assume that if
additional []-transcription appears in the source, we simply copy it
over. This way, we delegate the responsibility to the source ;-)

Agreed

Best,

  Piotr


Regards,
Einhard



I assume that a single //-transcription can match several
[]-transcriptions where one amongst the latter may match the former
literally.  I.e., that the distinction of // and [] cannot be extracted
from the content.

Therefore--while acknowledging that I had no prior knowledge of the
distinction--I'd prefer having that distinction represented in TEI.
That is, if we want to keep the []-transcriptions stemming from the
Wiktionary.  I have no strong opinion on this, but am generally in
favour.

Anyways, having slashes et al. present inside the pron tag seems
awkward.  If we wanted to allow for this distinction, maybe add an
attribute (@notation / @type / @subtype [2])?


Concerning other dictionary sources that consistently use only one of
square brackets and slashes, I'd follow Piotr's argumentation.


By the way, it would be interesting how espeakNG deals with these
differences.  Given it has to speak words, it needs to know all details.
  Would the IPA pronunciation generated suffice to produce the voice
output?  Does it additionally use the respective language, a standard
dialect?  Assuming it prints phonemic transcriptions, can/could it be
made to print phonetic transcriptions?


Regards,
Einhard


[0]
https://en.wiktionary.org/wiki/Wiktionary:Pronunciation#Phonetics_and_phonology

[1] https://en.wikipedia.org/wiki/Help:IPA#Brackets
[2] https://www.tei-c.org/release/doc/tei-p5-doc/en/html/ref-pron.html

On 31/12/2020 01:37, Piotr Bański wrote:
Hi all,

I am not sure if the upstream brackets in this case are significant --
dictionary makers usually know little about the IPA and the slash vs.
square bracket (broad vs. narrow transcription) conventions that are far
more significant to phonologists writing for other phonologists.

The practical reason for ignoring the distinction is that narrow,
allophonic transcription that is usually signalled with square brackets
-- recall: by phonologists for phonologists -- either begins to be
significant _in the context_, that is, when two words meet in an
utterance, and one influences the other, or it is in most cases fully
predictable from the internal make-up of the word. Dictionary makers
will usually skip most of the allophonic info as too detailed.

To give an example:

the 'r' sound in the following (let's say British) English words is
(well, can be) actually different:  three, tree, stream, borrow. The
first is (well, can be) called a 'flap', the second is a fully devoiced
fricative, the third is a half-devoiced fricative, the fourth is
sometimes called a "frictionless continuant" (among other terms). Each
of them receives a different symbol in the narrow transcription
(actually, in the two middle cases, the 'r' symbols get some extra stuff
attached to them). It would be super silly for a dictionary of English
meant for "general consumption" to indicate such differences. I'm not
saying that there are no dictionaries that do, but those that we are
dealing with are not so specialized. For them, all of the 'r' sounds are
just an instance of /r/, in slanted brackets, and rightly so.

The fact that some dictionary makers will choose [] over // is in most
cases only a matter of their aesthetic or practical preference, not a
signal about the kind of transcription that is used.

Best wishes,

    Piotr


On 30/12/2020 18:10, Sebastian Humenda wrote:
Hello Karl

Karl Bartel schrieb am 30.12.2020, 15:13 +0100:
Less specific notes:
* More dictionaries containing embedded slashes:
    ita-bul, ita-ell, ita-fin, ita-jpn, ita-pol, ita-rus, ita-swe,
    ita-tur, nld-fin, nld-itam, nld-lat, nld-lit, nld-por, nld-rus,
    nld-spa, nld-swe

Thanks for spotting, that's a WikDict bug :).
I'm preserving the upstream brackets, since the different bracketing
styles
provide information about the enclosed text[1]. I can certainly strip
the
different brackets from the entries, if that is desired. Should I go
ahead
and do that?

[1] https://en.wikipedia.org/wiki/Help:IPA#Brackets

I wasn't aware of the subtle difference. As I cannot read IPA myself,
I had
the potentially wrong impression that IPA is *always* universal and
language-agnostic. Therefore the linked page doesn't make much sense
to me. If
there is indeed a variant of IPA for native speakers and another for
foreigners, then this would need to be represented in TEI. But this
looks
unfamiliar to me.

Thanks
Sebastian



-- 
FreeDict - Free And Open Dictionaries
Manage your subscription at https://www.freelists.org/list/freedict
Wiki: https://github.com/freedict/fd-dictionaries/wiki
Web: http://freedict.org

Other related posts: