[korpusne] Re: Korpus: Co chcemy anotowac ?

  • From: Dawid Weiss <dawid.weiss@xxxxxxxxxxxxxxxx>
  • To: korpusne@xxxxxxxxxxxxx
  • Date: Sat, 24 Sep 2005 18:23:50 +0200


Ok, ja znam gate od strony API... mam nadzieje, ze istnieja w nim narzedzia do wsparcia anotowania, bo ja sobie nie wyobrazam zliczania bajtow od poczatku pliku (tym bardziej, jesli pracujemy w heterogenicznym srodowisku Linux-Windows, gdzie offsety beda sie zmienialy wraz ze znakami konca linii...).


D.

Maciej Piasecki wrote:
Witam Wszystkich!

W standardzie architektury GATE anotacje sÄ trzymane w osobnym pliku z ofsetami do pliku ÅrÃdÅowego, czyli dokÅadnie tak jak w propozycji Jakuba. PrzesÅankÄ do przyjÄcia takiego rozwiÄzania byÅa moÅliwoÅÄ wprowadzania 'krzyÅujÄcych siÄ' anotacji, co nie moÅliwe przy zgÅÄbianiu XML-a do pliku ÅrÃdÅowego.
SÄdzÄ, Åe powinniÅmy siÄ tego trzymaÄ. NaleÅy mieÄ na uwadze, Åe w jakiejÅ przyszÅoÅci anotacje dotyczÄce nazw wÅasnych nie bÄdÄ jedynymi w naszym korpusie.


Pozdrawiam serdecznie,
  Maciek Piasecki


Czy to nie bedzie zbyt trudne (jesli dobrze rozumiem start_character i end_character to offsety w zrodlowym pliku tekstowym)? Ja tam bym byl za anotowaniem bezposrednio na zrodle. Np. w postaci osadzonego XMLa (ktory mozna zignorowac aby dostac wersje zrodlowa dokumentu). Ma to takze te zalete, ze po dodaniu DTD albo Schema ma sie podpowiedzi tagow i atrybutow (np. edytujac w JEdicie). Mysle o czyms takim:


<doc>
Na koncercie <person type="unnamed" id="lm">Leszka Mozdzera</person> w <facility type="institution">Akademii Muzycznej w Poznaniu</facility> pianista
bisowal szesciokrotnie. Trudno uznac <personref id="lm">jego</personref> koncert za nieudany.
</doc>


D.








Other related posts: