[bksvol-discuss] Re: Finding sentences that are incorrectly broken by paragraph marks

  • From: "Evan Reese" <mentat1@xxxxxxxxxxxxxx>
  • To: <bksvol-discuss@xxxxxxxxxxxxx>
  • Date: Sat, 7 Oct 2017 15:53:23 -0400

Hey Guys,
At first, I thought what Judy said was correct, but later on I recalled that 
you can use something called “regular expressions” in K1000. Unfortunately, 
although I have a message from Stephen Baum answering a question I had about 
how to use them, and I have a message here from me thanking him for an 
interesting message about them to the (now defunct) K1000 support mailing list, 
I cannot find the original message he sent describing how to use them. Also, I 
cannot find any references to “regular expressions” in my version 11.03 user 
manual or reference guide, although the correspondence I had with him about 
them was from 2010, well before this version came out.
After a bit of Googling however, I have found references to regular expressions 
in pdf manuals from versions 12 and 13 of K1000, so it seems likely that those 
who have those or later versions should have access to the info as to how to 
use them. Since I’m not sure I really understand them, I am not sure whether 
they are equivalent  to, or even similar to, what Judy is doing with MS Word, 
but it seems that they might be. Perhaps someone here has that old email 
message, or can quote from the manual for the later versions that describe how 
to use them.
I will copy what Stephen Baum posted back to me so that people can at least get 
an idea as to how they work. His response was an answer to a question I had as 
to how to search for something that was not there. My original message is below 
Stephen’s, so you can see what he was answering.
* * *
Hi Evan.
With regular expressions, you can search for a character that is not there. You 
would
use a negated character class, which is done with square brackets (which 
indicates
a character class), and a caret (which negates the class). A simple example 
would
be to search for q[^u] – you would find the letter q, but only if it is not 
followed
by a u. To find page break characters that do not have a new line before them, 
you
would also have to remember that K1000 breaks up documents on page boundaries, 
so
that you use an anchor character.
To search for page breaks that are not preceded by an new line, you could do 
this:
[^\r\n]$
Stephen
From: k1000-owner@xxxxxxxxxxxxxxxxxxxxxxxx 
[mailto:k1000-owner@xxxxxxxxxxxxxxxxxxxxxxxx]
On Behalf Of EVAN REESE
Sent: Monday, August 30, 2010 11:44 AM
To: k1000@xxxxxxxxxxxxxxxxxxxxxxxx
Subject: Question About Regular Expressions
I read Stephen's interesting message about regular expressions; and although I'm
not sure I really understand it at a deep level, I think I may be able to use 
them
at least to some extent.
I was using K1000 yesterday and it occurred to me that it would be nice to have 
a
way of searching for a character that is NOT there. For instance, in the example
yesterday, I wanted to search for any pagebreak characters that do NOT have a 
new
line before or after them. This is needful for Bookshare books, or at least it 
used
to be. Besides, I think the pages just look better that way. Of course, I can do
a search and replace and just add a new line before and after each pagebreak, 
then
do another search and replace or two to remove any extras; that's what I do now.
But it would be simpler to just search for those that are not there and insert 
them.
Is there currently any method, either using regular expressions, or in any other
way, to search for something that isn't there?
Evan

From: Judy s. 
Sent: Wednesday, October 04, 2017 1:11 AM
To: bksvol-discuss@xxxxxxxxxxxxx 
Subject: [bksvol-discuss] Re: Finding sentences that are incorrectly broken by 
paragraph marks

Hi Jana,

Unfortunately, I don't think Kurzweil 1000 has a built in programming language 
you can use inside of it like Visual Basic, which is what Word relies on to do 
wildcard searches like this. Some of the Kurzweil pros here would know far 
better about that, so I hope some of them chime in. smile.


Judy s.
Follow me on Twitter at QuackersNCheese 

On 10/3/2017 10:59 PM, Jana Jackson wrote:

  Hmmm... Wonder how I would do this with Kurzweil 1000?  Thanks, Judy, very 
helpful info!

   

  Jana

   

   

  From: bksvol-discuss-bounce@xxxxxxxxxxxxx 
[mailto:bksvol-discuss-bounce@xxxxxxxxxxxxx] On Behalf Of Judy s.
  Sent: Tuesday, October 3, 2017 8:22 PM
  To: bksvol-discuss@xxxxxxxxxxxxx
  Subject: [bksvol-discuss] Finding sentences that are incorrectly broken by 
paragraph marks

   

  Hi all,

  The new proofreading manual has 26 step process to find incorrect paragraph 
breaks in the middle of sentences that sometimes happen during the scanning and 
OCRing process.

  I've been fudging around with a wildcard search to do this in Microsoft Word 
and wanted to share what I'm using now.

  To do this, you use a special kind of search, with the "use wildcards" option 
in the find and replace dialogue.
  1. In the Find and Replace dialogue box, click on the button that is marked 
"More."  This will expand the options that are available in the Find and 
Replace box to include a new list of Search Options.
  2. In the list of Search Options, check the box for "use wildcards" (you can 
also do this while in the Search box by typing alt U, which is alt capital U).
  3. In the find box, enter [(a-z)]^13 (that is left-parentheses 
left-square-bracket lowercase-a hyphen lowercase-z right-square-bracket 
right-parentheses caret 13)
  4. Start searching (using an alt f to find) and examine each instance to see 
if it needs correction.

  When you're finished with this search, make sure you uncheck the use 
wildcards box in the find and replace dialogue. You don't want it to remain 
checked because it will affect other searches you will make later.

  -- 

  Judy s.
  Follow me on Twitter at QuackersNCheese 


Other related posts: