[greenstone_es] Re: csv que no funciona, no extrae metadatos

From: Diego Spano <diegospano@xxxxxxxxx>
To: greenstone_es@xxxxxxxxxxxxx
Date: Tue, 20 Jul 2010 17:30:00 -0300
Silvia,

debo admitir que sos la que ha escrito el mail más largo desde que se dio
inicio a la lista.....


Mi pregunta es: si vos queres asociar los metadatos a los pdfs, entonces por
que se los estás asociando a nulo.txt?

Veamos un ejemplo. Vos tenes el archivo libro.pdf y queres asociarle los
metadatos a traves de un csv, entonces hacelo asi:

Filename,dc.Contributor,dc.Publisher,dc.Date,dc.Source,dc.Language,dc.Relation,dc.Coverage
libro.pdf,Laboratorio de Conservación y Restauración de Colecciones en
Papel de la CNEA,Sig. P. Guard.Bethlehem
ord.min.,1939-03-23,1,latin,,Bethlehem

Al archivo csv llamalo algo asi: aaa.csv. COn esto garantizas que ese
archivo sea el primero que encuentre GS en la carpeta import. AL
reconocerlo, GS va a buscar el primer campo, es decir, el nombre del
documento que debe asociar. Toma el libro.pdf y ademas de procesar el pdf
(con el plugin de PDF) le asocia los metadatos que le indicaste en el csv.

Vos preguntas por "...la logica entre el csv, los dc. y los metadatos."

El csv se usa para asignar los metadatos. Estos pueden ser dc o cualquier
otro esquema.

Con respecto a la fecha, está bien el formato que indicas.

Espero haber sido claro....

Saludos


Diego

Diego Spano
Prodigio Consultores
Bernardo de Irigoyen N° 1114 2°B
Capital Federal - Argentina
Tel: (54 11) 5093-5313
www.prodigioconsultores.com


2010/7/20 <schinen@xxxxxxxxxxxxxxx>

> Hola: YA no sé qué estoy haciendo mal. He seguido los pasos que mencionan
> en
>
> //www.freelists.org/post/greenstone_es/greenstone-es-Re-greenstone-es-RE-greenstone-es-Re-greenstone-es-RE-greenstone-es-excelMARC-formatos-mejores-para-datos-bibliogrficos
>
> Aca paso lo que hice:
>
> arme un csv asi
>
>
> Filename,dc.Contributor,dc.Publisher,dc.Date,dc.Source,dc.Language,dc.Relation,dc.Coverage
> nulo.txt,Laboratorio de Conservación y Restauración de Colecciones en
> Papel de la CNEA,Sig. P. Guard.Bethlehem
> ord.min.,1939-03-23,1,latin,,Bethlehem
> nulo.txt,Laboratorio de Conservación y Restauración de Colecciones en
> Papel de la CNEA,Episcopus Parmae,1877-06-07,2,latin,Regist sub
> 1328,Parmae
> nulo.txt,Laboratorio de Conservación y Restauración de Colecciones en
> Papel de la CNEA,Ord. Min. Capucinorum,1957-04-29,3,latin,gratis ubique
> 145,Romae Curia Generali
>
> la lista sigue, esta en el adjunto.
>
> Por otro lado meti el nulo.txt con un . para que no este vacio.
>
> y el collct es asi:
>
>
> creator
> maintainer
> public          true
>
> buildtype       mgpp
>
> indexes         text dc.Title,ex.Title dc.Subject
> defaultindex    text
>
> levels  document
>
> indexoptions    accentfold casefold stem
>
> defaultlevel    document
>
> plugin  MetadataCSVPlugin
> plugin  PDFPlugin -convert_to html
> plugin  EmbeddedMetadataPlugin
> plugin  CSVPlugin
> plugin  TextPlugin
> plugin  GreenstoneXMLPlugin
> plugin  HTMLPlugin
> plugin  MetadataXMLPlugin
> plugin  ArchivesInfPlugin
> plugin  DirectoryPlugin
>
> classify        List -metadata dc.Title;ex.Title -buttonname "Nombre
> original de
> la autentica" -partition_type_within_level approximate_size
>
> classify        AZCompactList -mingroup 1 -metadata dc.Subject -buttonname
> "Tipos
> de reliquia"
> classify        Hierarchy -metadata dc.Creator -firstvalueonly -buttonname
> Postulador
>
> format VList "<table width=\"100%\" >
> <tr>
> <td width=\"5%\">
> [link][icon][/link][ex.srclink][srcicon][ex./srclink]</td>
> <td width=\"95%\" >[ex.srclink] [highlight]{Or}{[dc.Title],[ex.Title]
> ,Untitled}[/highlight] [/ex.srclink]</td>
> </tr>
> </table>"
>
> format HList "[highlight][ex.Title][/highlight]"
>
> format DocumentHeading "{Or}{[parent(Top):Title],[Title],untitled}<br>"
>
> format DocumentText "[srclink]<a
> href=\"_httpprefix_/collect/prueba/index/assoc/[assocfilepath]/doc.pdf\"
> target=\"_blank\">
> {Or}{[dc.Title],[exp.Title],[ex.Title],Untitled}</a>[/srclink]"
>
> format DocumentButtons "Detach|Highlight"
>
> format SearchTypes "plain,form"
>
> format SearchVList "<table width=\"100%\">
> <tr>
> <td width=\"53%\" bgcolor=\"#FF00FF\">
>
> [link][icon][/link][highlight]{Or}{[dc.Title],[ex.Title],Untitled}[/highlight]</td>
> <td width=\"47%\">a [link][icon][/link]
> [ex.srclink][ex.srcicon][ex./srclink]</td>
> </tr>
> <tr>
> <td>2</td>
> <td>b</td>
> </tr>
> <tr>
> <td>3</td>
> <td>c</td>
> </tr>
> </table>"
>
> format CL1VList "<ul >
> <table width=\"600\" style=\"border: 1px solid #e0f0e0; list-style-type:
> none; padding: 32px 16px 16px 16px; font: normal 12px Arial, Sans-serif;\">
> <tr>
> <td width=\"26%\"><strong>Nombre del Documento</strong></td>
> <td width=\"74%\">[ex.srclink] [highlight]{Or}{[dc.Title],[ex.Title]
> ,Untitled}[/highlight] [/ex.srclink]</td>
> </tr>
> <tr>
> <td><strong>Postulador</strong></td>
> <td>[highlight]{Or}{[dc.Creator],[ex.Creator] ,Untitled}[/highlight]</td>
> </tr>
> <tr>
> <td><strong>Tipo de Reliquia</strong></td>
> <td>[highlight]{Or}{[dc.Subject],[ex.Subject] ,Untitled}[/highlight]</td>
> </tr>
> <tr>
> <td><strong>Ver PDF</strong></td>
> <td>[ex.srclink][srcicon][ex./srclink]</td>
> </tr>
> <tr>
> <td><strong>Organismo Emisor</strong></td>
> <td>[highlight]{Or}{[dc.Publisher],[ex.Publisher]
> ,Untitled}[/highlight]</td>
> </tr>
> <tr>
> <td>ProcesÃ³</td>
> <td>[highlight]{Or}{[dc.Contributor],[ex.Contributor]
> ,Untitled}[/highlight]</td>
> </tr>
> <tr>
> <td>Fecha de emision</td>
> <td>[highlight]{Or}{[dc.Date],[ex.Date] ,Untitled}[/highlight]</td>
> </tr>
> </table>
> </ul>"
>
> format CL3VList "<table width=\"500\" bgcolor=\"#CCCCCC\" style=\"border:
> 1px solid #e0f0e0; list-style-type:
> none; padding: 32px 16px 16px 16px; font: normal 12px Arial, Verdana;\">
> <tr>
>
> <td>{If}{[numleafdocs],<td>[link][Title]</td>,<td>[srclink][ex.srcicon][/srclink]</td>
> <td>{Or}{[dc.Title],[exp.Title],[ex.Title],Untitled}</td>}
> </td>
> </tr>
> </table>"
>
> collectionmeta  collectionname [l=en] "prueba"
> collectionmeta  iconcollection [l=en]
> "_httpprefix_/collect/prueba/images/logo.jpg"
> collectionmeta  .text [l=en] "_labeltext_"
> collectionmeta  .dc.Title,ex.Title [l=en] "_labelTitle_"
> collectionmeta  .ex.Source [l=en] "_labelSource_"
> collectionmeta  .document [l=en] "_textdocument_"
> collectionmeta  .section [l=en] "_textsection_"
> collectionmeta  iconcollectionsmall [l=en]
> "prueba_httpprefix_/collect/prueba/images/logo.jpg"
> collectionmeta  depositormetadata [l=en]
> "{\"name\":\"dc.Title\",\"label\":\"Title\",\"tooltip\":\"dc.Title: A name
> given to the resource.\",\"type\":\"text\"},
> {\"name\":\"dc.Creator\",\"label\":\"Creator\",\"tooltip\":\"dc.Creator:
> An entity primarily responsible for making the content of the
> resource.\",\"type\":\"text\"},
> {\"name\":\"dc.Subject\",\"label\":\"Subject\",\"tooltip\":\"dc.Subject:
> The topic of the content of the resource.\",\"type\":\"text\"},
>
> {\"name\":\"dc.Description\",\"label\":\"Description\",\"tooltip\":\"dc.Description:
> An account of the content of the resource.\",\"type\":\"text\"}"
> collectionmeta  .dc.Subject [l=en] "_labelSubject_"
>
>
> No tiene mucho detalle porque es una prueba. Pero lo que no me funciona es
> la extraccion de los datos que estoy poniendo en el csv. O sea: en los pdf
> estan titulo, autor, asunto y keywords, que se "traducen" al GS. Eso lo
> consigue gracias (si...!!! al fin!!!! gracias gente) al
> embeddedmetadataplugin.
> por las dudas tambien meti el plugin de pdf (aunque no formatee los
> -metadata) porque me interesa ver si los toma del csv que, en definitiva,
> son los mismos.
>
> Puse el plugin de text
>
> el tema es que usando el 2.83 que me instale contenta ahora que esta el
> embeddedmetadataplugin...no puedo usar el csv?
>
> mi pregunta es còmo es que se vincula el dato del csv con el archivo pdf?
> a traves de dc.Source?
> y sobre todo..por que no funciona?
>
> en un momento me resulto curioso porque me habia saltado un solo cuadrito
> con un solo metadato extraido del csv, pero intentando que aparezcan todos
> los demas, no volvio a aparecer mas. Me aparecia en titulo : . y mas abajo
> en Fecha de emision el metadato extraido correctamente. per fue el unico.
> como si el punto en nulo.txt hubiera influido de alguna manera en la
> extraccion de la ultima dila del csv. Puse mas puntos. Y desaparecio...
>
> Es que no entiendo todavia la logica entre el csv, los dc. y los metadatos.
>
> Otra: el formato de fecha esta bien?
>
> aaaa-mm-dd
>
> Gracias por la ayuda.
> Silvia
Follow-Ups:
- [greenstone_es] Re: csv que no funciona, no extrae metadatos
  - From: Silvia Chinen
References:
- [greenstone_es] csv que no funciona, no extrae metadatos
  - From: schinen
[greenstone_es] Re: csv que no funciona, no extrae metadatos

Other related posts: