[freedict] Re: pronunciation formatting in WikDict dictionaries

  • From: Einhard Leichtfuß <alguien@xxxxxxxxxxxxx>
  • To: freedict@xxxxxxxxxxxxx
  • Date: Thu, 31 Dec 2020 20:45:41 +0100

Hi,

I have just verified that only autogenerated dictionaries are affected,
i.e. none in the fd-dictionaries repository, presumably only WikDict ones.

If I understand your argumentation correctly, you consider only cases
where there is used one of square brackets and slashes exclusively.

However, the Wiktionary uses both, as indicated in its page on phonetics
[0].  It does clearly distinguish between slashes and (square)
brackets--for phonemics and ponetics, respectively--albeit only mentions
the latter to be used for distinction between dialects.  The earlier
linked Wikipedia page [1] instead also specifies that the
[]-transcription may be helpful in general to non-native speakers.  (The
example given, "la bamba" (es), is provided with a different
[]-transcription in the Wiktionary, though.)

As far as I understand it, the square bracket / phonetic version is
generally more valuable, in particular to non-native speakers.  Also,
given that the Wiktionary in some cases provides different phonetics for
different accents, we might want to retain these different phonetics.

I assume that a single //-transcription can match several
[]-transcriptions where one amongst the latter may match the former
literally.  I.e., that the distinction of // and [] cannot be extracted
from the content.

Therefore--while acknowledging that I had no prior knowledge of the
distinction--I'd prefer having that distinction represented in TEI.
That is, if we want to keep the []-transcriptions stemming from the
Wiktionary.  I have no strong opinion on this, but am generally in favour.

Anyways, having slashes et al. present inside the pron tag seems
awkward.  If we wanted to allow for this distinction, maybe add an
attribute (@notation / @type / @subtype [2])?


Concerning other dictionary sources that consistently use only one of
square brackets and slashes, I'd follow Piotr's argumentation.


By the way, it would be interesting how espeakNG deals with these
differences.  Given it has to speak words, it needs to know all details.
 Would the IPA pronunciation generated suffice to produce the voice
output?  Does it additionally use the respective language, a standard
dialect?  Assuming it prints phonemic transcriptions, can/could it be
made to print phonetic transcriptions?


Regards,
Einhard


[0]
https://en.wiktionary.org/wiki/Wiktionary:Pronunciation#Phonetics_and_phonology
[1] https://en.wikipedia.org/wiki/Help:IPA#Brackets
[2] https://www.tei-c.org/release/doc/tei-p5-doc/en/html/ref-pron.html

On 31/12/2020 01:37, Piotr Bański wrote:

Hi all,

I am not sure if the upstream brackets in this case are significant --
dictionary makers usually know little about the IPA and the slash vs.
square bracket (broad vs. narrow transcription) conventions that are far
more significant to phonologists writing for other phonologists.

The practical reason for ignoring the distinction is that narrow,
allophonic transcription that is usually signalled with square brackets
-- recall: by phonologists for phonologists -- either begins to be
significant _in the context_, that is, when two words meet in an
utterance, and one influences the other, or it is in most cases fully
predictable from the internal make-up of the word. Dictionary makers
will usually skip most of the allophonic info as too detailed.

To give an example:

the 'r' sound in the following (let's say British) English words is
(well, can be) actually different:  three, tree, stream, borrow. The
first is (well, can be) called a 'flap', the second is a fully devoiced
fricative, the third is a half-devoiced fricative, the fourth is
sometimes called a "frictionless continuant" (among other terms). Each
of them receives a different symbol in the narrow transcription
(actually, in the two middle cases, the 'r' symbols get some extra stuff
attached to them). It would be super silly for a dictionary of English
meant for "general consumption" to indicate such differences. I'm not
saying that there are no dictionaries that do, but those that we are
dealing with are not so specialized. For them, all of the 'r' sounds are
just an instance of /r/, in slanted brackets, and rightly so.

The fact that some dictionary makers will choose [] over // is in most
cases only a matter of their aesthetic or practical preference, not a
signal about the kind of transcription that is used.

Best wishes,

   Piotr


On 30/12/2020 18:10, Sebastian Humenda wrote:
Hello Karl

Karl Bartel schrieb am 30.12.2020, 15:13 +0100:
Less specific notes:
* More dictionaries containing embedded slashes:
   ita-bul, ita-ell, ita-fin, ita-jpn, ita-pol, ita-rus, ita-swe,
   ita-tur, nld-fin, nld-itam, nld-lat, nld-lit, nld-por, nld-rus,
   nld-spa, nld-swe

Thanks for spotting, that's a WikDict bug :).
I'm preserving the upstream brackets, since the different bracketing
styles
provide information about the enclosed text[1]. I can certainly strip
the
different brackets from the entries, if that is desired. Should I go
ahead
and do that?

[1] https://en.wikipedia.org/wiki/Help:IPA#Brackets

I wasn't aware of the subtle difference. As I cannot read IPA myself,
I had
the potentially wrong impression that IPA is *always* universal and
language-agnostic. Therefore the linked page doesn't make much sense
to me. If
there is indeed a variant of IPA for native speakers and another for
foreigners, then this would need to be represented in TEI. But this looks
unfamiliar to me.

Thanks
Sebastian


-- 
FreeDict - Free And Open Dictionaries
Manage your subscription at https://www.freelists.org/list/freedict
Wiki: https://github.com/freedict/fd-dictionaries/wiki
Web: http://freedict.org

Other related posts: