[greenstone_es] csv que no funciona, no extrae metadatos

  • From: schinen@xxxxxxxxxxxxxxx
  • To: greenstone_es@xxxxxxxxxxxxx
  • Date: Tue, 20 Jul 2010 03:20:51 -0300 (ART)

Hola: YA no sé qué estoy haciendo mal. He seguido los pasos que mencionan en
//www.freelists.org/post/greenstone_es/greenstone-es-Re-greenstone-es-RE-greenstone-es-Re-greenstone-es-RE-greenstone-es-excelMARC-formatos-mejores-para-datos-bibliogrficos

Aca paso lo que hice:

arme un csv asi

Filename,dc.Contributor,dc.Publisher,dc.Date,dc.Source,dc.Language,dc.Relation,dc.Coverage
nulo.txt,Laboratorio de Conservación y Restauración de Colecciones en
Papel de la CNEA,Sig. P. Guard.Bethlehem
ord.min.,1939-03-23,1,latin,,Bethlehem
nulo.txt,Laboratorio de Conservación y Restauración de Colecciones en
Papel de la CNEA,Episcopus Parmae,1877-06-07,2,latin,Regist sub
1328,Parmae
nulo.txt,Laboratorio de Conservación y Restauración de Colecciones en
Papel de la CNEA,Ord. Min. Capucinorum,1957-04-29,3,latin,gratis ubique
145,Romae Curia Generali

la lista sigue, esta en el adjunto.

Por otro lado meti el nulo.txt con un . para que no este vacio.

y el collct es asi:


creator
maintainer
public          true

buildtype       mgpp

indexes         text dc.Title,ex.Title dc.Subject
defaultindex    text

levels  document

indexoptions    accentfold casefold stem

defaultlevel    document

plugin  MetadataCSVPlugin
plugin  PDFPlugin -convert_to html
plugin  EmbeddedMetadataPlugin
plugin  CSVPlugin
plugin  TextPlugin
plugin  GreenstoneXMLPlugin
plugin  HTMLPlugin
plugin  MetadataXMLPlugin
plugin  ArchivesInfPlugin
plugin  DirectoryPlugin

classify        List -metadata dc.Title;ex.Title -buttonname "Nombre original de
la autentica" -partition_type_within_level approximate_size

classify        AZCompactList -mingroup 1 -metadata dc.Subject -buttonname 
"Tipos
de reliquia"
classify        Hierarchy -metadata dc.Creator -firstvalueonly -buttonname
Postulador

format VList "<table width=\"100%\" >
<tr>
<td width=\"5%\"> [link][icon][/link][ex.srclink][srcicon][ex./srclink]</td>
<td width=\"95%\" >[ex.srclink] [highlight]{Or}{[dc.Title],[ex.Title]
,Untitled}[/highlight] [/ex.srclink]</td>
</tr>
</table>"

format HList "[highlight][ex.Title][/highlight]"

format DocumentHeading "{Or}{[parent(Top):Title],[Title],untitled}<br>"

format DocumentText "[srclink]<a
href=\"_httpprefix_/collect/prueba/index/assoc/[assocfilepath]/doc.pdf\"
target=\"_blank\">
{Or}{[dc.Title],[exp.Title],[ex.Title],Untitled}</a>[/srclink]"

format DocumentButtons "Detach|Highlight"

format SearchTypes "plain,form"

format SearchVList "<table width=\"100%\">
<tr>
<td width=\"53%\" bgcolor=\"#FF00FF\">
[link][icon][/link][highlight]{Or}{[dc.Title],[ex.Title],Untitled}[/highlight]</td>
<td width=\"47%\">a [link][icon][/link]
[ex.srclink][ex.srcicon][ex./srclink]</td>
</tr>
<tr>
<td>2</td>
<td>b</td>
</tr>
<tr>
<td>3</td>
<td>c</td>
</tr>
</table>"

format CL1VList "<ul >
<table width=\"600\" style=\"border: 1px solid #e0f0e0; list-style-type:
none; padding: 32px 16px 16px 16px; font: normal 12px Arial, Sans-serif;\">
<tr>
<td width=\"26%\"><strong>Nombre del Documento</strong></td>
<td width=\"74%\">[ex.srclink] [highlight]{Or}{[dc.Title],[ex.Title]
,Untitled}[/highlight] [/ex.srclink]</td>
</tr>
<tr>
<td><strong>Postulador</strong></td>
<td>[highlight]{Or}{[dc.Creator],[ex.Creator] ,Untitled}[/highlight]</td>
</tr>
<tr>
<td><strong>Tipo de Reliquia</strong></td>
<td>[highlight]{Or}{[dc.Subject],[ex.Subject] ,Untitled}[/highlight]</td>
</tr>
<tr>
<td><strong>Ver PDF</strong></td>
<td>[ex.srclink][srcicon][ex./srclink]</td>
</tr>
<tr>
<td><strong>Organismo Emisor</strong></td>
<td>[highlight]{Or}{[dc.Publisher],[ex.Publisher] ,Untitled}[/highlight]</td>
</tr>
<tr>
<td>Procesó</td>
<td>[highlight]{Or}{[dc.Contributor],[ex.Contributor]
,Untitled}[/highlight]</td>
</tr>
<tr>
<td>Fecha de emision</td>
<td>[highlight]{Or}{[dc.Date],[ex.Date] ,Untitled}[/highlight]</td>
</tr>
</table>
</ul>"

format CL3VList "<table width=\"500\" bgcolor=\"#CCCCCC\" style=\"border:
1px solid #e0f0e0; list-style-type:
none; padding: 32px 16px 16px 16px; font: normal 12px Arial, Verdana;\">
<tr>
<td>{If}{[numleafdocs],<td>[link][Title]</td>,<td>[srclink][ex.srcicon][/srclink]</td>
<td>{Or}{[dc.Title],[exp.Title],[ex.Title],Untitled}</td>}
</td>
</tr>
</table>"

collectionmeta  collectionname [l=en] "prueba"
collectionmeta  iconcollection [l=en]
"_httpprefix_/collect/prueba/images/logo.jpg"
collectionmeta  .text [l=en] "_labeltext_"
collectionmeta  .dc.Title,ex.Title [l=en] "_labelTitle_"
collectionmeta  .ex.Source [l=en] "_labelSource_"
collectionmeta  .document [l=en] "_textdocument_"
collectionmeta  .section [l=en] "_textsection_"
collectionmeta  iconcollectionsmall [l=en]
"prueba_httpprefix_/collect/prueba/images/logo.jpg"
collectionmeta  depositormetadata [l=en]
"{\"name\":\"dc.Title\",\"label\":\"Title\",\"tooltip\":\"dc.Title: A name
given to the resource.\",\"type\":\"text\"},
{\"name\":\"dc.Creator\",\"label\":\"Creator\",\"tooltip\":\"dc.Creator:
An entity primarily responsible for making the content of the
resource.\",\"type\":\"text\"},
{\"name\":\"dc.Subject\",\"label\":\"Subject\",\"tooltip\":\"dc.Subject:
The topic of the content of the resource.\",\"type\":\"text\"},
{\"name\":\"dc.Description\",\"label\":\"Description\",\"tooltip\":\"dc.Description:
An account of the content of the resource.\",\"type\":\"text\"}"
collectionmeta  .dc.Subject [l=en] "_labelSubject_"


No tiene mucho detalle porque es una prueba. Pero lo que no me funciona es
la extraccion de los datos que estoy poniendo en el csv. O sea: en los pdf
estan titulo, autor, asunto y keywords, que se "traducen" al GS. Eso lo
consigue gracias (si...!!! al fin!!!! gracias gente) al
embeddedmetadataplugin.
por las dudas tambien meti el plugin de pdf (aunque no formatee los
-metadata) porque me interesa ver si los toma del csv que, en definitiva,
son los mismos.

Puse el plugin de text

el tema es que usando el 2.83 que me instale contenta ahora que esta el
embeddedmetadataplugin...no puedo usar el csv?

mi pregunta es còmo es que se vincula el dato del csv con el archivo pdf?
a traves de dc.Source?
y sobre todo..por que no funciona?

en un momento me resulto curioso porque me habia saltado un solo cuadrito
con un solo metadato extraido del csv, pero intentando que aparezcan todos
los demas, no volvio a aparecer mas. Me aparecia en titulo : . y mas abajo
en Fecha de emision el metadato extraido correctamente. per fue el unico.
como si el punto en nulo.txt hubiera influido de alguna manera en la
extraccion de la ultima dila del csv. Puse mas puntos. Y desaparecio...

Es que no entiendo todavia la logica entre el csv, los dc. y los metadatos.

Otra: el formato de fecha esta bien?

aaaa-mm-dd

Gracias por la ayuda.
Silvia

Other related posts: