[korpusne] Re: Standardy anotacji nazw wlasnych

  • From: Agata SAVARY <agata.savary@xxxxxxxxxxxxx>
  • To: korpusne@xxxxxxxxxxxxx
  • Date: Wed, 26 Oct 2005 16:51:48 +0200

Dzien dobry jeszcze raz,

Co do zaleznosci miedzy ontologia a anotacja, to wydaja mi sie, ze rozwiazan jest to tyle, co mozliwych zastosowan. Tu zgadzam sie wiec z Magdalena Wolska, ze od zdefiniowania zastosowan trzeba by zaczac.

Z naszej lokalnej (tzn. mojej grupy) perspektywy wyglada to troche specyficznie, bo mamy podejscie "zorientowane zasobowo". Zakladamy, ze bedziemy miec baze danych (oparta na ontologii) zawierajaca w miare duzo nazw wlasnych i te baze bedzie mozna uzywac do anotacji w zaleznosci od zastosowan. Jesli zakladamy, ze w zastosowaniach sama baza danych bedzie do dyspozycji, to wlasciwie wystarczy anotowac nazwy wlasne w tekscie poprzez ich identyfikatory, a reszte potrzebnych informacji znajdzie sie w bazie.

Ale dla polskiego takiej bazy jeszcze nie mamy (bo nie ma jej komu wypelniac...). W zwiazku z tym nasz (czlonkow tej listy dyskusyjnej) projekt polskiego korpusu anotowanego powinien chyba uwzglednic szczegolowe okreslenie zastosowan. Nie jestem ekspertem od zastosowan korpusow anotowanych. Moze ktos z Was nim jest i moze sie w skrocie wypowiedziec ?

Zrobic cos podobnego do MUC lub CoNLL mozna, ale brakuje mi troche wiedzy na temat przejscia od osiagniec startujacych tam systemow do ich konkretnych zastosowan.

Tak "na oko", wydaje mi sie, ze w przypadku jezykow slowianskich poza okresleniem typow (czy tez jedynie nadtypow), wazna bylaby tez anotacja fleksyjna nazw wlasnych i ich czlonow, bo jest ona np. bardzo istotna w procesie ekstrakcji. Co do okreslen typu "dyrektor generalny, prezydent", itd. to tez wydaja mi sie one nie do obejscia, ze wzgledu na ich wage np. w systemach pytanie-odpowiedz (Kim jest X? itd.).

Pozdrawiam

Agata

Other related posts: