[korpusne] Re: Standardy anotacji nazw wlasnych

  • From: Agata SAVARY <agata.savary@xxxxxxxxxxxxx>
  • To: korpusne@xxxxxxxxxxxxx
  • Date: Thu, 27 Oct 2005 19:03:44 +0200

Dzien dobry,

ad rem bez wstepu, bo chcialbym sie glownie jeszcze doinformowac:


Co do pierwszego pytania Kuby, to nazwy mieszkancow zniknely z listy typow, a
przesuniete zostaly na warstwy zaleznej od jezyka jako derywacje (np. Warszawa
-> Warszawiak/nka), gdzie figuruja np. obok przymiotnikow odrzeczownikowych
(Warszawa -> warszawski).


czy derywacje maja jakies atrybuty? -- tu: Warszawiak/nka (osoba)
pochodzi od Warszawa (miejsce) i do miejsca jest doczepiona (tak?)
-- rozumiem, ze to ze Warszawiak/nka jest osoba jest gdzies
uwzglednione (tak?)
Nie bezposrednio. Po pierwsze musze ostrzec, ze ontologia to jedno (ogolny szkielet pojec), a jej implementacja (model bazy danych) to drugie. Pewne elementy istniejace w implementacji nie pojawiaja sie w ontologii jako zbyt szczegolowe. Pytanie o "Warszawiaka" wlasnie nalezy do tej kategorii. Otoz "Warszawiak" jako derywacja od "Warszawy" jest przewidziany w ontologii (i w implementacji oczywiscie tez). Natomiast jego kategoria "rzeczownik relacyjny" jest juz tylko w implementacji (inna mozliwa kategoria derywacji to "przymiotnik relacyjny", np. warszawski").
Na razie nie mamy zadnych "rzeczownikow relacyjnych", ktore nie bylyby nazwami osob, wiec DOMYSLNIE wszystkie one sa nadtypu "antroponim". Ale nie maja osobnego przewidzianego dla nich typu "Mieszkaniec" (co nie pzreszkadza w uwzglednieniu takiej etykietki w anotacji).


Co do okreslen typu "positions and titles, np. Prof." itd., o ktore pyta Kuba,
to oczywiscie nie znajduja sie one na poziomie typow, bo nie sa nazwami
wlasnymi. Ale istnieja w ontologii jako okreslenia jednej z wielu RELACJI
zachodzacych miedzy nazwami wlasnymi. Wezmy za przyklad: Jacques Chirac, prezydent Francji. [...]
Winna jestem sprostowanie co do powyzszego (jako ze sama jestem na razie srednio zaangazowana w ten projekt, dowiaduje sie niektorych rzeczy na biezaco). No wiec w warstwie NIEZALEZNEJ od jezyka miedzy dwiema nazwami wlasnymi np "Chirac" i "Francja", zgodnie z tym co napisalam w poprzednim mailu, faktycznie zachodzi relacja z atrybutem "polityk". Natomiast, co do okreslen typu "prezydent", "dyrektor" itd., to na poziomie ZALEZNYM od jezyka opisuja one pojedyncze nazwy wlasne, a nie relacje miedzy dwiema nazwami. Bo jak slusznie Magda zauwaza nizej, niektore tytuly (np Mr.) nie wyrazaja zadnej relacji.

> pozycje i (naukowe) tytuly (od biedy) jako relacje (? ze niby
> profesor uniwersytetu? magister/doktor od jakichs_nauk?),
> ale zwykle "honorifics" (Mr., Ms., etc.) jako elementy
> struktury (?) jako atrybuty w zaleznej od jezyka warstwie
> ontologii obiektow? -- nie sa relacjne (jak te z "Dostepu"
> czy "Opisu") -- podobnie Jr., Sr., I., II., etc. ?


no wlasnie: tu wychodzi semantyczne nastawinie -- mysle,
ze takie podejscie by bylo calkiem dobre, pod warunkiem, ze te ontologie rzeczywiscie zaimplementujemy (ta z Prolexu jest zaimplementowana z tego co rozumiem) i zaimplementujemy
komunikacje miedzy anotacja a ontologia...
Dla zaiteresowanych nasza implementacja odsylam na strone http://tln.li.univ-tours.fr/tln_prolex/prolex.php gdzie mozliwy jest dostep do bazy danych (bedacej implementacja ontologii).

I tu dochodze do sedna moich rozterek, ktora postaram sie w skrocie przedstawic, moze ktos ma na nie jakas odpowiedz.

Z tego, co zrozumialam, to uczestniczace w tej dyskusji konsorcjum jest gotowe to stworzenia polskiego korpusu anotowanego, a NIE bazy danych nazw wlasnych w oparciu o ontologie. Jesli sie mysle, to prosze mnie ostrzec, bo bylaby to b. dobra wiadomosc (ale i wiecej pracy niz w przypadku korpusu, ktory z natury ma swoje granice). Majac taka baze, rozne korpusy anotowane moglibysmy tworzyc prawie automatycznie w zaleznosci od zastosowan.

Zakladam wiec ze tej bazy danych dla polskiego nie mamy. Wowczas zaadoptowanie ontologii (tzn. "szkieletu" organizujacego pojecia jakimi sa nazwy wlasne, ale nie zawierajacego konkretnych nazw) do anotacji jest dla mnie bardzo niejasne (wiem, ze to ja sama wyskoczylam z ta ontologia...). Gdybysmy CALA ontologie zastosowac chcieli do anotacji, to kazda nazwe wlasna wystepujaca w tekscie trzeba by opatrzyc dziesiatkami baliz opisujacych jej typ, nadtyp, forme podstawowa, derywaty, fleksje, synonimy, meronimy, fonologie, itd. itd. Co jest praktycznie niewykonalne jesli nie posiadamy juz gotowej bazy danych nazw wlasnych z calym tym bogatym opisem (dla francuskiego baza ta tworzona jest od lat prawie wylacznie "recznie"). Po drugie, nawet gdyby taka bogata anotacje udalo sie stworzyc, to otrzymany korpus bylby prawdopodobnie nieuzyteczny wlasnie z powodu zbyt duzej szczegolowosci.

Nalezy wiec dokonac WYBORU relacji i atrybutow, ktore maja figurowac (w postaci baliz) wokol nazw wlasnych wystepujacych w tekscie. Ten wybor jest w pewnym sensie nieodwracalny, bo anotowanie bedzie wymagac wielu roboczogodzin (ludzkich, nawet przy automatycznym wspomaganiu). Wiec jesli zdamy sobie sprawe, ze np. o jakiejs relacji nie pomyslelismy, a dla pewnego zastosowania jest ona wazna, to jej dorzucenie bedzie oznaczac kolejna ilosc roboczogodzin. Tak wiec trzeba dobrze okreslic zastosowania tworzonego korpusu.

Z drugiej strony, poki taki korpus nie istnieje, to trudno jest dokladnie ustalic jego zastosowania (na temat zastosowan korpusow dla innych jezykow, jak rozumiem nikt z nas nie jest ekspertem). Slowem bledne kolo...

Niezlym rozwiazaniem jest zrobic tak jak wszyscy, czyli z grubsza jak MUC & Co. Ale problem w tym, ze tam nie ma wynikow dla jezykow "egzotycznych", jakim jak wiadomo jest polski. Mysle, wiec ze, obok wyborow umotywowanych lingwistycznie niestety trzeba sie bedzie zgodzic na pewna ilosc decyzji "na oko".

Tym pesymistycznym akcentem...

Pozdrawiam wszystkich (zwlaszcza tych co dotrwali do konca tej pisaniny)

Agata

Other related posts: