[greenstone_es] Re: csv que no funciona, no extrae metadatos

  • From: "Silvia Chinen" <schinen@xxxxxxxxxxxxxxx>
  • To: <greenstone_es@xxxxxxxxxxxxx>
  • Date: Wed, 21 Jul 2010 10:11:04 -0300

Ups. Meti todo en el mismo mail...y resulta que la pregunta era muy
basica...Perdon!
 
Habre leido mal el freelist, me habia parecido que ahi decia en el
ejemplo que en filename se pusiera a ese nulo.txt . Y por eso no
entendía cómo vinculaba el pdf  con los metadatos.
 Ahora que veo lo que pusiste es mas logico! No sé de dónde saque de
asociar filename con el txt...Y funciona!  Ahora entendi. PEnsaba que
filename era otra cosa, y que usaba el dc.source para vincular los
metadatos del csv con el archivo. Resulta que es Filename...que naba-!
 
Gracias por la paciencia. Funciono todo bien.
SIlvia

-----Mensaje original-----
De: Diego Spano [mailto:diegospano@xxxxxxxxx] 
Enviado el: martes, 20 de julio de 2010 17:30
Para: greenstone_es@xxxxxxxxxxxxx
Asunto: [greenstone_es] Re: csv que no funciona, no extrae metadatos


Silvia,

debo admitir que sos la que ha escrito el mail más largo desde que se
dio inicio a la lista.....


Mi pregunta es: si vos queres asociar los metadatos a los pdfs, entonces
por que se los estás asociando a nulo.txt?

Veamos un ejemplo. Vos tenes el archivo libro.pdf y queres asociarle los
metadatos a traves de un csv, entonces hacelo asi:

Filename,dc.Contributor,dc.Publisher,dc.Date,dc.Source,dc.Language,dc.Re
lation,dc.Coverage
libro.pdf,Laboratorio de Conservación y Restauración de Colecciones en
Papel de la CNEA,Sig. P. Guard.Bethlehem
ord.min.,1939-03-23,1,latin,,Bethlehem

Al archivo csv llamalo algo asi: aaa.csv. COn esto garantizas que ese
archivo sea el primero que encuentre GS en la carpeta import. AL
reconocerlo, GS va a buscar el primer campo, es decir, el nombre del
documento que debe asociar. Toma el libro.pdf y ademas de procesar el
pdf (con el plugin de PDF) le asocia los metadatos que le indicaste en
el csv. 

Vos preguntas por "...la logica entre el csv, los dc. y los metadatos."

El csv se usa para asignar los metadatos. Estos pueden ser dc o
cualquier otro esquema.

Con respecto a la fecha, está bien el formato que indicas.

Espero haber sido claro....

Saludos


Diego

Diego Spano
Prodigio Consultores
Bernardo de Irigoyen N° 1114 2°B 
Capital Federal - Argentina
Tel: (54 11) 5093-5313
www.prodigioconsultores.com



2010/7/20 <schinen@xxxxxxxxxxxxxxx>


Hola: YA no sé qué estoy haciendo mal. He seguido los pasos que
mencionan en
//www.freelists.org/post/greenstone_es/greenstone-es-Re-greenstone-
es-RE-greenstone-es-Re-greenstone-es-RE-greenstone-es-excelMARC-formatos
-mejores-para-datos-bibliogrficos

Aca paso lo que hice:

arme un csv asi

Filename,dc.Contributor,dc.Publisher,dc.Date,dc.Source,dc.Language,dc.Re
lation,dc.Coverage
nulo.txt,Laboratorio de Conservación y Restauración de Colecciones en
Papel de la CNEA,Sig. P. Guard.Bethlehem
ord.min.,1939-03-23,1,latin,,Bethlehem
nulo.txt,Laboratorio de Conservación y Restauración de Colecciones en
Papel de la CNEA,Episcopus Parmae,1877-06-07,2,latin,Regist sub
1328,Parmae
nulo.txt,Laboratorio de Conservación y Restauración de Colecciones en
Papel de la CNEA,Ord. Min. Capucinorum,1957-04-29,3,latin,gratis ubique
145,Romae Curia Generali

la lista sigue, esta en el adjunto.

Por otro lado meti el nulo.txt con un . para que no este vacio.

y el collct es asi:


creator
maintainer
public          true

buildtype       mgpp

indexes         text dc.Title,ex.Title dc.Subject
defaultindex    text

levels  document

indexoptions    accentfold casefold stem

defaultlevel    document

plugin  MetadataCSVPlugin
plugin  PDFPlugin -convert_to html
plugin  EmbeddedMetadataPlugin
plugin  CSVPlugin
plugin  TextPlugin
plugin  GreenstoneXMLPlugin
plugin  HTMLPlugin
plugin  MetadataXMLPlugin
plugin  ArchivesInfPlugin
plugin  DirectoryPlugin

classify        List -metadata dc.Title;ex.Title -buttonname "Nombre
original de
la autentica" -partition_type_within_level approximate_size

classify        AZCompactList -mingroup 1 -metadata dc.Subject
-buttonname "Tipos
de reliquia"
classify        Hierarchy -metadata dc.Creator -firstvalueonly
-buttonname
Postulador

format VList "<table width=\"100%\" >
<tr>
<td width=\"5%\">
[link][icon][/link][ex.srclink][srcicon][ex./srclink]</td>
<td width=\"95%\" >[ex.srclink] [highlight]{Or}{[dc.Title],[ex.Title]
,Untitled}[/highlight] [/ex.srclink]</td>
</tr>
</table>"

format HList "[highlight][ex.Title][/highlight]"

format DocumentHeading "{Or}{[parent(Top):Title],[Title],untitled}<br>"

format DocumentText "[srclink]<a
href=\"_httpprefix_/collect/prueba/index/assoc/[assocfilepath]/doc.pdf\"
target=\"_blank\">
{Or}{[dc.Title],[exp.Title],[ex.Title],Untitled}</a>[/srclink]"

format DocumentButtons "Detach|Highlight"

format SearchTypes "plain,form"

format SearchVList "<table width=\"100%\">
<tr>
<td width=\"53%\" bgcolor=\"#FF00FF\">
[link][icon][/link][highlight]{Or}{[dc.Title],[ex.Title],Untitled}[/high
light]</td>
<td width=\"47%\">a [link][icon][/link]
[ex.srclink][ex.srcicon][ex./srclink]</td>
</tr>
<tr>
<td>2</td>
<td>b</td>
</tr>
<tr>
<td>3</td>
<td>c</td>
</tr>
</table>"

format CL1VList "<ul >
<table width=\"600\" style=\"border: 1px solid #e0f0e0; list-style-type:
none; padding: 32px 16px 16px 16px; font: normal 12px Arial,
Sans-serif;\">
<tr>
<td width=\"26%\"><strong>Nombre del Documento</strong></td>
<td width=\"74%\">[ex.srclink] [highlight]{Or}{[dc.Title],[ex.Title]
,Untitled}[/highlight] [/ex.srclink]</td>
</tr>
<tr>
<td><strong>Postulador</strong></td>
<td>[highlight]{Or}{[dc.Creator],[ex.Creator]
,Untitled}[/highlight]</td>
</tr>
<tr>
<td><strong>Tipo de Reliquia</strong></td>
<td>[highlight]{Or}{[dc.Subject],[ex.Subject]
,Untitled}[/highlight]</td>
</tr>
<tr>
<td><strong>Ver PDF</strong></td>
<td>[ex.srclink][srcicon][ex./srclink]</td>
</tr>
<tr>
<td><strong>Organismo Emisor</strong></td>
<td>[highlight]{Or}{[dc.Publisher],[ex.Publisher]
,Untitled}[/highlight]</td>
</tr>
<tr>
<td>Procesó</td>
<td>[highlight]{Or}{[dc.Contributor],[ex.Contributor]
,Untitled}[/highlight]</td>
</tr>
<tr>
<td>Fecha de emision</td>
<td>[highlight]{Or}{[dc.Date],[ex.Date] ,Untitled}[/highlight]</td>
</tr>
</table>
</ul>"

format CL3VList "<table width=\"500\" bgcolor=\"#CCCCCC\"
style=\"border:
1px solid #e0f0e0; list-style-type:
none; padding: 32px 16px 16px 16px; font: normal 12px Arial, Verdana;\">
<tr>
<td>{If}{[numleafdocs],<td>[link][Title]</td>,<td>[srclink][ex.srcicon][
/srclink]</td>
<td>{Or}{[dc.Title],[exp.Title],[ex.Title],Untitled}</td>}
</td>
</tr>
</table>"

collectionmeta  collectionname [l=en] "prueba"
collectionmeta  iconcollection [l=en]
"_httpprefix_/collect/prueba/images/logo.jpg"
collectionmeta  .text [l=en] "_labeltext_"
collectionmeta  .dc.Title,ex.Title [l=en] "_labelTitle_"
collectionmeta  .ex.Source [l=en] "_labelSource_"
collectionmeta  .document [l=en] "_textdocument_"
collectionmeta  .section [l=en] "_textsection_"
collectionmeta  iconcollectionsmall [l=en]
"prueba_httpprefix_/collect/prueba/images/logo.jpg"
collectionmeta  depositormetadata [l=en]
"{\"name\":\"dc.Title\",\"label\":\"Title\",\"tooltip\":\"dc.Title: A
name
given to the resource.\",\"type\":\"text\"},
{\"name\":\"dc.Creator\",\"label\":\"Creator\",\"tooltip\":\"dc.Creator:
An entity primarily responsible for making the content of the
resource.\",\"type\":\"text\"},
{\"name\":\"dc.Subject\",\"label\":\"Subject\",\"tooltip\":\"dc.Subject:
The topic of the content of the resource.\",\"type\":\"text\"},
{\"name\":\"dc.Description\",\"label\":\"Description\",\"tooltip\":\"dc.
Description:
An account of the content of the resource.\",\"type\":\"text\"}"
collectionmeta  .dc.Subject [l=en] "_labelSubject_"


No tiene mucho detalle porque es una prueba. Pero lo que no me funciona
es
la extraccion de los datos que estoy poniendo en el csv. O sea: en los
pdf
estan titulo, autor, asunto y keywords, que se "traducen" al GS. Eso lo
consigue gracias (si...!!! al fin!!!! gracias gente) al
embeddedmetadataplugin.
por las dudas tambien meti el plugin de pdf (aunque no formatee los
-metadata) porque me interesa ver si los toma del csv que, en
definitiva,
son los mismos.

Puse el plugin de text

el tema es que usando el 2.83 que me instale contenta ahora que esta el
embeddedmetadataplugin...no puedo usar el csv?

mi pregunta es còmo es que se vincula el dato del csv con el archivo
pdf?
a traves de dc.Source?
y sobre todo..por que no funciona?

en un momento me resulto curioso porque me habia saltado un solo
cuadrito
con un solo metadato extraido del csv, pero intentando que aparezcan
todos
los demas, no volvio a aparecer mas. Me aparecia en titulo : . y mas
abajo
en Fecha de emision el metadato extraido correctamente. per fue el
unico.
como si el punto en nulo.txt hubiera influido de alguna manera en la
extraccion de la ultima dila del csv. Puse mas puntos. Y desaparecio...

Es que no entiendo todavia la logica entre el csv, los dc. y los
metadatos.

Otra: el formato de fecha esta bien?

aaaa-mm-dd

Gracias por la ayuda.
Silvia


Other related posts: