[korpusne] Re: Korpus: Co chcemy anotowac ?

  • From: Maciej Piasecki <maciej.piasecki@xxxxxxxxxxx>
  • To: korpusne@xxxxxxxxxxxxx
  • Date: Sat, 24 Sep 2005 17:15:51 +0200

Witam Wszystkich!

W standardzie architektury GATE anotacje sÄ trzymane w osobnym pliku z ofsetami do pliku ÅrÃdÅowego, czyli dokÅadnie tak jak w propozycji Jakuba. PrzesÅankÄ do przyjÄcia takiego rozwiÄzania byÅa moÅliwoÅÄ wprowadzania 'krzyÅujÄcych siÄ' anotacji, co nie moÅliwe przy zgÅÄbianiu XML-a do pliku ÅrÃdÅowego.
SÄdzÄ, Åe powinniÅmy siÄ tego trzymaÄ. NaleÅy mieÄ na uwadze, Åe w jakiejÅ przyszÅoÅci anotacje dotyczÄce nazw wÅasnych nie bÄdÄ jedynymi w naszym korpusie.


Pozdrawiam serdecznie,
  Maciek Piasecki


Czy to nie bedzie zbyt trudne (jesli dobrze rozumiem start_character i end_character to offsety w zrodlowym pliku tekstowym)? Ja tam bym byl za anotowaniem bezposrednio na zrodle. Np. w postaci osadzonego XMLa (ktory mozna zignorowac aby dostac wersje zrodlowa dokumentu). Ma to takze te zalete, ze po dodaniu DTD albo Schema ma sie podpowiedzi tagow i atrybutow (np. edytujac w JEdicie). Mysle o czyms takim:


<doc>
Na koncercie <person type="unnamed" id="lm">Leszka Mozdzera</person> w <facility type="institution">Akademii Muzycznej w Poznaniu</facility> pianista
bisowal szesciokrotnie. Trudno uznac <personref id="lm">jego</personref> koncert za nieudany.
</doc>


D.Other related posts: