[cpha] CPHA Library Update 2020

  • From: "Jeff Pinchbeck" <dmarc-noreply@xxxxxxxxxxxxx> (Redacted sender "jpinchbeck" for DMARC)
  • To: <cpha@xxxxxxxxxxxxx>
  • Date: Wed, 1 Jan 2020 20:42:07 -0500

 

I posted this on the website and thought I'd send it to the list too.

The Library team has grown to 4 people.  The scanning team is Dave Pottinger
and me.  Our administrative point man is Rob Kirkham.  Paul Clegg is our
field research guy looking for new material.  

I just finished prepping the next load of documents and I'm going to do it a
bit different than previous years.  Instead of dumping a huge 359 doc blob
I'm going to do smaller themed batches - stencil, bridges, steam, etc.  Look
for it starting tomorrow.  

Recently I received some comments via friend of a friend (sort of thing) and
I thought maybe I can clarify a couple of the concerns regarding the
Library.

The first comment was regarding how frequently we post material.  The short
answer is at least once a year; however, it would be nice to have enough
bandwidth to do it more often.

Here's the longer explanation.  J  On average we post 350+ documents every
year but that's not the full picture.  We accept duplicate material in hope
that we get better quality scans and document revisions.  Sometimes we
receive documents that aren't official, too recent (not historical),
contains personal information or the source not entirely known.  So the
typical year scan quantity is well over 400.  

Scanning a blueprint is relatively quick.  I can do 20-50 drawings in an
evening's work depending on the state of the originals.  The larger effort
is the post scan processing to get it up on the Library.  We have programs
and scripting to make some tasks quicker but there is still a lot of grunt
work like, e.g., verification and data entry.  

My hope for 2020 is we find an additional volunteer that can do data entry
so we can maybe do more than one post in a year.  The position is available
but there are software prerequisites and you need to be able to commit the
time to do it.   Contact me if you're interested.

 

The second comment was regarding the Library's backlog.  As I mentioned we
scan a good number of documents a year so the fact that we have a health
sized backlog speaks loudly on how successful the project is going.  So
let's talk about our backlog system.

The backlog is organized in 4 groups; long and mid-term projects, high
priority and the ready to post queue.

Long term projects are contributions consisting of multiple thousands of
documents and owner does not want the collection returned.  Up to now we
have been working on it when there are no mid-term projects to work on but
recently Dave Pottinger has been assigned to work on it.  Finished material
is scanned and documented for delivery to an archive.  The designated
archive will also receive the final image and PDF documents for their use.


Mid-term projects are less than a couple thousand documents and the owner
does not want the collection returned.  The work on this type of project is
done when the high priority list is up to date.  Like the long term projects
queue, the material is scanned and documented for delivery to an archive.
The designated archive will receive the final scanned and PDF documents for
their use.

High priority are documents that the owner wants them back.  I work on the
high priority list and move to the mid-term queue when caught up.  The list
is organized by due date.  That is, if the owner gives us an expected time
frame then we will do our best to meet the deadline.  E.g., the drawing is
going to be sold or something like that.  The queue is constantly
reorganized based on due dates.  Documents received that have no explicit
deadline are organized by the "pile" system.  Incoming is put at the bottom
of the pile.  J

Occasionally we receive material that is has already been scanned.  The
material comes either as an image file or PDF.  On receipt I check the
material and place in one of the 3 queues.  

If the scan contribution is good quality and compatible with our software
then it goes right into the ready to post queue.  Good as done.

Contributions that require some post scan processing and compatible with our
software go in the high priority queue.  

Contributions containing a lot of files (e.g., thousands) and need
processing or not compatible are placed in the mid-term project queue.  

Non-compatible scans can be a challenge.  Some scan software convert images
into layers of OCR text, line segments and shading layers.  Colour 16 and
24bit scans need to be converted to black and white image.  White on black
images need to be reversed.  Drawings de-speckled and straightened, etc.
Sometimes we get a PDF version that our software can't deal with.  These are
the type of docs that are put in the mid-term queue.  I revisit them when I
have time to figure out what software we need, or I need to write, or figure
out the trick on how to work with it.  J

So that was last year's concern.  This year we continue to charge forward
and do what we've been doing for the past 18 year - having fun and building
the best source for CPR documentation that anyone could hope to find.  J

Happy New Year and all the best for 2020,

Jeff Pinchbeck

CPHA, Vice Chairman

 

Other related posts:

  • » [cpha] CPHA Library Update 2020 - Jeff Pinchbeck