[greenstone_es] Re: csv que no funciona, no extrae metadatos

  • From: Diego Spano <diegospano@xxxxxxxxx>
  • To: greenstone_es@xxxxxxxxxxxxx
  • Date: Wed, 21 Jul 2010 12:03:07 -0300

Hola Silvia, el tema de usar nulo.txt es para el caso en que vos no tengas
documentos asociados, entonces solo cargás el registro bibliografico.


Saludos!.

Diego

2010/7/21 Silvia Chinen <schinen@xxxxxxxxxxxxxxx>

>  Ups. Meti todo en el mismo mail...y resulta que la pregunta era muy
> basica...Perdon!
>
> Habre leido mal el freelist, me habia parecido que ahi decia en el ejemplo
> que en filename se pusiera a ese nulo.txt . Y por eso no entendía cómo
> vinculaba el pdf  con los metadatos.
>  Ahora que veo lo que pusiste es mas logico! No sé de dónde saque de
> asociar filename con el txt...Y funciona!  Ahora entendi. PEnsaba que
> filename era otra cosa, y que usaba el dc.source para vincular los metadatos
> del csv con el archivo. Resulta que es Filename...que naba-!
>
> Gracias por la paciencia. Funciono todo bien.
> SIlvia
>
>  -----Mensaje original-----
> *De:* Diego Spano [mailto:diegospano@xxxxxxxxx]
> *Enviado el:* martes, 20 de julio de 2010 17:30
> *Para:* greenstone_es@xxxxxxxxxxxxx
> *Asunto:* [greenstone_es] Re: csv que no funciona, no extrae metadatos
>
> Silvia,
>
> debo admitir que sos la que ha escrito el mail más largo desde que se dio
> inicio a la lista.....
>
>
> Mi pregunta es: si vos queres asociar los metadatos a los pdfs, entonces
> por que se los estás asociando a nulo.txt?
>
> Veamos un ejemplo. Vos tenes el archivo libro.pdf y queres asociarle los
> metadatos a traves de un csv, entonces hacelo asi:
>
>
> Filename,dc.Contributor,dc.Publisher,dc.Date,dc.Source,dc.Language,dc.Relation,dc.Coverage
> libro.pdf,Laboratorio de Conservación y Restauración de Colecciones en
> Papel de la CNEA,Sig. P. Guard.Bethlehem
> ord.min.,1939-03-23,1,latin,,Bethlehem
>
> Al archivo csv llamalo algo asi: aaa.csv. COn esto garantizas que ese
> archivo sea el primero que encuentre GS en la carpeta import. AL
> reconocerlo, GS va a buscar el primer campo, es decir, el nombre del
> documento que debe asociar. Toma el libro.pdf y ademas de procesar el pdf
> (con el plugin de PDF) le asocia los metadatos que le indicaste en el csv.
>
> Vos preguntas por "...la logica entre el csv, los dc. y los metadatos."
>
> El csv se usa para asignar los metadatos. Estos pueden ser dc o cualquier
> otro esquema.
>
> Con respecto a la fecha, está bien el formato que indicas.
>
> Espero haber sido claro....
>
> Saludos
>
>
> Diego
>
> Diego Spano
> Prodigio Consultores
> Bernardo de Irigoyen N° 1114 2°B
> Capital Federal - Argentina
> Tel: (54 11) 5093-5313
> www.prodigioconsultores.com
>
>
> 2010/7/20 <schinen@xxxxxxxxxxxxxxx>
>
>> Hola: YA no sé qué estoy haciendo mal. He seguido los pasos que mencionan
>> en
>>
>> //www.freelists.org/post/greenstone_es/greenstone-es-Re-greenstone-es-RE-greenstone-es-Re-greenstone-es-RE-greenstone-es-excelMARC-formatos-mejores-para-datos-bibliogrficos
>>
>> Aca paso lo que hice:
>>
>> arme un csv asi
>>
>>
>> Filename,dc.Contributor,dc.Publisher,dc.Date,dc.Source,dc.Language,dc.Relation,dc.Coverage
>> nulo.txt,Laboratorio de Conservación y Restauración de Colecciones en
>> Papel de la CNEA,Sig. P. Guard.Bethlehem
>> ord.min.,1939-03-23,1,latin,,Bethlehem
>> nulo.txt,Laboratorio de Conservación y Restauración de Colecciones en
>> Papel de la CNEA,Episcopus Parmae,1877-06-07,2,latin,Regist sub
>> 1328,Parmae
>> nulo.txt,Laboratorio de Conservación y Restauración de Colecciones en
>> Papel de la CNEA,Ord. Min. Capucinorum,1957-04-29,3,latin,gratis ubique
>> 145,Romae Curia Generali
>>
>> la lista sigue, esta en el adjunto.
>>
>> Por otro lado meti el nulo.txt con un . para que no este vacio.
>>
>> y el collct es asi:
>>
>>
>> creator
>> maintainer
>> public          true
>>
>> buildtype       mgpp
>>
>> indexes         text dc.Title,ex.Title dc.Subject
>> defaultindex    text
>>
>> levels  document
>>
>> indexoptions    accentfold casefold stem
>>
>> defaultlevel    document
>>
>> plugin  MetadataCSVPlugin
>> plugin  PDFPlugin -convert_to html
>> plugin  EmbeddedMetadataPlugin
>> plugin  CSVPlugin
>> plugin  TextPlugin
>> plugin  GreenstoneXMLPlugin
>> plugin  HTMLPlugin
>> plugin  MetadataXMLPlugin
>> plugin  ArchivesInfPlugin
>> plugin  DirectoryPlugin
>>
>> classify        List -metadata dc.Title;ex.Title -buttonname "Nombre
>> original de
>> la autentica" -partition_type_within_level approximate_size
>>
>> classify        AZCompactList -mingroup 1 -metadata dc.Subject -buttonname
>> "Tipos
>> de reliquia"
>> classify        Hierarchy -metadata dc.Creator -firstvalueonly -buttonname
>> Postulador
>>
>> format VList "<table width=\"100%\" >
>> <tr>
>> <td width=\"5%\">
>> [link][icon][/link][ex.srclink][srcicon][ex./srclink]</td>
>> <td width=\"95%\" >[ex.srclink] [highlight]{Or}{[dc.Title],[ex.Title]
>> ,Untitled}[/highlight] [/ex.srclink]</td>
>> </tr>
>> </table>"
>>
>> format HList "[highlight][ex.Title][/highlight]"
>>
>> format DocumentHeading "{Or}{[parent(Top):Title],[Title],untitled}<br>"
>>
>> format DocumentText "[srclink]<a
>> href=\"_httpprefix_/collect/prueba/index/assoc/[assocfilepath]/doc.pdf\"
>> target=\"_blank\">
>> {Or}{[dc.Title],[exp.Title],[ex.Title],Untitled}</a>[/srclink]"
>>
>> format DocumentButtons "Detach|Highlight"
>>
>> format SearchTypes "plain,form"
>>
>> format SearchVList "<table width=\"100%\">
>> <tr>
>> <td width=\"53%\" bgcolor=\"#FF00FF\">
>>
>> [link][icon][/link][highlight]{Or}{[dc.Title],[ex.Title],Untitled}[/highlight]</td>
>> <td width=\"47%\">a [link][icon][/link]
>> [ex.srclink][ex.srcicon][ex./srclink]</td>
>> </tr>
>> <tr>
>> <td>2</td>
>> <td>b</td>
>> </tr>
>> <tr>
>> <td>3</td>
>> <td>c</td>
>> </tr>
>> </table>"
>>
>> format CL1VList "<ul >
>> <table width=\"600\" style=\"border: 1px solid #e0f0e0; list-style-type:
>> none; padding: 32px 16px 16px 16px; font: normal 12px Arial,
>> Sans-serif;\">
>> <tr>
>> <td width=\"26%\"><strong>Nombre del Documento</strong></td>
>> <td width=\"74%\">[ex.srclink] [highlight]{Or}{[dc.Title],[ex.Title]
>> ,Untitled}[/highlight] [/ex.srclink]</td>
>> </tr>
>> <tr>
>> <td><strong>Postulador</strong></td>
>> <td>[highlight]{Or}{[dc.Creator],[ex.Creator] ,Untitled}[/highlight]</td>
>> </tr>
>> <tr>
>> <td><strong>Tipo de Reliquia</strong></td>
>> <td>[highlight]{Or}{[dc.Subject],[ex.Subject] ,Untitled}[/highlight]</td>
>> </tr>
>> <tr>
>> <td><strong>Ver PDF</strong></td>
>> <td>[ex.srclink][srcicon][ex./srclink]</td>
>> </tr>
>> <tr>
>> <td><strong>Organismo Emisor</strong></td>
>> <td>[highlight]{Or}{[dc.Publisher],[ex.Publisher]
>> ,Untitled}[/highlight]</td>
>> </tr>
>> <tr>
>> <td>Procesó</td>
>> <td>[highlight]{Or}{[dc.Contributor],[ex.Contributor]
>> ,Untitled}[/highlight]</td>
>> </tr>
>> <tr>
>> <td>Fecha de emision</td>
>> <td>[highlight]{Or}{[dc.Date],[ex.Date] ,Untitled}[/highlight]</td>
>> </tr>
>> </table>
>> </ul>"
>>
>> format CL3VList "<table width=\"500\" bgcolor=\"#CCCCCC\" style=\"border:
>> 1px solid #e0f0e0; list-style-type:
>> none; padding: 32px 16px 16px 16px; font: normal 12px Arial, Verdana;\">
>> <tr>
>>
>> <td>{If}{[numleafdocs],<td>[link][Title]</td>,<td>[srclink][ex.srcicon][/srclink]</td>
>> <td>{Or}{[dc.Title],[exp.Title],[ex.Title],Untitled}</td>}
>> </td>
>> </tr>
>> </table>"
>>
>> collectionmeta  collectionname [l=en] "prueba"
>> collectionmeta  iconcollection [l=en]
>> "_httpprefix_/collect/prueba/images/logo.jpg"
>> collectionmeta  .text [l=en] "_labeltext_"
>> collectionmeta  .dc.Title,ex.Title [l=en] "_labelTitle_"
>> collectionmeta  .ex.Source [l=en] "_labelSource_"
>> collectionmeta  .document [l=en] "_textdocument_"
>> collectionmeta  .section [l=en] "_textsection_"
>> collectionmeta  iconcollectionsmall [l=en]
>> "prueba_httpprefix_/collect/prueba/images/logo.jpg"
>> collectionmeta  depositormetadata [l=en]
>> "{\"name\":\"dc.Title\",\"label\":\"Title\",\"tooltip\":\"dc.Title: A name
>> given to the resource.\",\"type\":\"text\"},
>> {\"name\":\"dc.Creator\",\"label\":\"Creator\",\"tooltip\":\"dc.Creator:
>> An entity primarily responsible for making the content of the
>> resource.\",\"type\":\"text\"},
>> {\"name\":\"dc.Subject\",\"label\":\"Subject\",\"tooltip\":\"dc.Subject:
>> The topic of the content of the resource.\",\"type\":\"text\"},
>>
>> {\"name\":\"dc.Description\",\"label\":\"Description\",\"tooltip\":\"dc.Description:
>> An account of the content of the resource.\",\"type\":\"text\"}"
>> collectionmeta  .dc.Subject [l=en] "_labelSubject_"
>>
>>
>> No tiene mucho detalle porque es una prueba. Pero lo que no me funciona es
>> la extraccion de los datos que estoy poniendo en el csv. O sea: en los pdf
>> estan titulo, autor, asunto y keywords, que se "traducen" al GS. Eso lo
>> consigue gracias (si...!!! al fin!!!! gracias gente) al
>> embeddedmetadataplugin.
>> por las dudas tambien meti el plugin de pdf (aunque no formatee los
>> -metadata) porque me interesa ver si los toma del csv que, en definitiva,
>> son los mismos.
>>
>> Puse el plugin de text
>>
>> el tema es que usando el 2.83 que me instale contenta ahora que esta el
>> embeddedmetadataplugin...no puedo usar el csv?
>>
>> mi pregunta es còmo es que se vincula el dato del csv con el archivo pdf?
>> a traves de dc.Source?
>> y sobre todo..por que no funciona?
>>
>> en un momento me resulto curioso porque me habia saltado un solo cuadrito
>> con un solo metadato extraido del csv, pero intentando que aparezcan todos
>> los demas, no volvio a aparecer mas. Me aparecia en titulo : . y mas abajo
>> en Fecha de emision el metadato extraido correctamente. per fue el unico.
>> como si el punto en nulo.txt hubiera influido de alguna manera en la
>> extraccion de la ultima dila del csv. Puse mas puntos. Y desaparecio...
>>
>> Es que no entiendo todavia la logica entre el csv, los dc. y los
>> metadatos.
>>
>> Otra: el formato de fecha esta bien?
>>
>> aaaa-mm-dd
>>
>> Gracias por la ayuda.
>> Silvia
>
>
>

Other related posts: