[liblouis-liblouisxml] Re: SV: Re: SV: Re: Nonstandard hyphenation rules: Liblouis not support this type rules when doing hyphenation?

  • From: Bert Frees <bertfrees@xxxxxxxxx>
  • To: "liblouis-liblouisxml@xxxxxxxxxxxxx" <liblouis-liblouisxml@xxxxxxxxxxxxx>
  • Date: Fri, 12 May 2017 23:07:58 +0200

Note that LEFTHYPHENMIN and RIGHTHYPHENMIN do not have any effect in
Liblouis. More advanced control of break opportunities, e.g. based on
whether letters are vowels or not, like Norbert described, is definitely
not supported.

Liblouis is not a hyphenation library and it should not become one. If more
advanced hyphenation features are desired, that should be an extra
incentive to look into the possibility of performing hyphenation with an
external library (the idea I mentioned before).

Also note that the only real reason why Liblouis itself needs hyphenation
is for the purpose of braille translation, namely to support the "nocross"
opcode. Liblouis does not do line breaking, that is done by applications
such as Liblouisutdml. Nothing stops applications that currently use
Liblouis to perform hyphenation (the lou_hyphenate function) to replace it
with another libraries, including those that support non-standard
hyphenation.



2017-05-12 22:11 GMT+02:00 Bue Vester-Andersen <bue@xxxxxxxxxxxxxxxxxx>:

In the Danish file, you have:



UTF-8

LEFTHYPHENMIN 1

RIGHTHYPHENMIN 1



The first line merely tells you that the file is to be interpreted as
utf8. The second and third line tell you exactly what you are asking for.
In this case the minimal distance to word boundaries are 1 letter from both
sides. If you set them to 0, you get words starting or ending with a hyphen.









*Fra:* liblouis-liblouisxml-bounce@xxxxxxxxxxxxx [mailto:
liblouis-liblouisxml-bounce@xxxxxxxxxxxxx] *På vegne af *Norbert Markus
*Sendt:* 12. maj 2017 20:28
*Til:* liblouis-liblouisxml@xxxxxxxxxxxxx
*Emne:* [liblouis-liblouisxml] Re: SV: Re: Nonstandard hyphenation rules:
Liblouis not support this type rules when doing hyphenation?



Hi Bert, Bue and All,



Sillable boundaries are also very important in the hyphenation of
Hungarian words, most exceptions however occur in conjunction with
boundaries of compound words. From the aspect of maintaining a hyphenation
dictionary, compound words make frequent updating necessary because they
constitute a highly productive area of the language and no programmed logic
can identify such in-word boundaries.



However, what Attila ment by non-standard hyphenation has more to do with
situations where the word's spelling changes due to the hyphenation. This
is also known in German but Hungarian is really abound with such instances,
therefore if an automatic hyphenation method cannot handle such cases, it
greatly impacts the efficiency of the hyphenation. Here is an example:

Without hyphenation: karosszéria

With hyphenation: ka-rosz-szé-ria

So, in the version without hyphenation, there is a sequence of ssz (that
is the indication of a long voiceless szibilant), while in the hyphenated
version, the long sibilant is cut into two short such s sounds written as
sz-sz.

TeX seems to have a device to handle such changes of spelling using
forward slashes and commas, etc.



And just another question inspired by this topic:

In TeX for the English Language, parameters are set to prevent hyphenation
from occuring after the first letter of a word and between the last three
letters (indicated as 2/3), for Hungarian, it is set to 2/2. For Hungarian
braille, the convention is that hyphenation may occur after the first
letter of a word if that letter is a vowel, and it is only prevented from
occuring between the last two letters of the word, thus it could be
indicated as 1/2.

Is there a way in liblouis to control this?



Best Regards, Norbert.

Other related posts: