[korpusne] Re: Standardy anotacji nazw wlasnych

  • From: Jakub Piskorski <piskorsk@xxxxxxx>
  • To: korpusne@xxxxxxxxxxxxx
  • Date: Fri, 28 Oct 2005 00:30:17 +0200


Agata,

krotko, bo aktualnie dlubie dwa papiery i nie mam zbytnio czasu odpowiedziec
szczegolowo.

chcialbym odpowiedziec na Twoje pytania i obiekcje itd.

Zalozeniem calej inicjatywy bylo, ze chcemy zrobic korpus z zaznaczonymi nazwami
wlasnymi. Bez relacji, bez lematyzacji, bez derywacji itd. Cos
jak MUC, ACE, ale dla polskiego. Z tymze, wlasnie wiekszosci sie chyba MUC nie
podoba, stad te cale dyskujse. Typy w MUC wymyslili Amerykanie, a jak wiadomo
to sa takkie harcerzyki, gluptasy, wiec nie jest haraszo....

Kilka osob na liscie (miedzy innymi ja) jest zainteresowanych automatycznym
rozpoznawaniem nazw wlasnych w tekstach, plus dodatkowo utozsamianiem
odwolan do tych samych obiektow, bytow, czy jak je tam zwa. Ogolnie
chodzi o ekstrakcje informacji. Maly korpusik moze byc wystarczajacy do
celow uczenia sie regul do aut. rozpoznawania nazw w tekstach i do prownywania
sie nawzajem, kto lepszy, a kto gorszy. Zastosowan automatcyznego rozpoznawania
nazw wlasnych jest wiele, jak chociazby question/answering czy automatczyne
generowanie streszczen, clustering. Z pewnoscia, czesc uczestnikow listy
chcialaby z takim korpusem robic cos innego, ale nie widze tu sprzecznosci.

O bazie danych nie myslalem, ale jedno moze napedzac drugie. Jak zrobimy
rewelacyjne narzedzia dla polskiego do rozpoznawania nazw wlasnych
(ja juz takie mam, ale nie sa rewelacyjne :-) ) to mozemy zajac sie automatyczna
populacja bazy danych.

W pierwszej linii, powinnismy jednak stworzyc korpusik, z mozliwie prosta
anotacja, co do ktorej chyba juz prawie jestesmy zgodni, tzn. typ z Waszej
ontologi + podtyp, ktory bedzie powiedzdmy podobny do waszych, ale byc moze
zdecydowalbym, sie na jakies dodatkowe podkategorie o czym byla mowa w innych
mailach (Magdy bodajze) + kwestia deskryptorow.

CO do anotacji, to miala ona byc robiona w odrebnych plikach, TIPSTER lub
cos podobnego. Ze wzgledu na zachodzace na siebie anotacje. Nierozstrzygnieta
byla kwestia czy zaznaczamy w korpusie odwolania do tych samych bytow poprzez
indeksowanie nazw plus indeksowanie odp zaimkow i fraz nominalnych. W
przyszlosci mozna zrobic lematyzacje itd. itd. itd.

Korpus: Rzeczpospolita, Agnieszka Mykowiecka z IPI wysle pismo do nich z prosba
o udostepnienie aktualnych danych. Musze jeszcze tylko z nia uszczegolowic
kilka spraw. Moze tez teksty medyczne, bo zdajesie jest kiolka zainteresowanych
osob.

to tyle pokrotce, przepraszam za literowki :-)

dobranoc,

QBA



Quoting Agata SAVARY <agata.savary@xxxxxxxxxxxxx>:

> Dzien dobry,
>
> > ad rem bez wstepu, bo chcialbym sie glownie jeszcze doinformowac:
> >
> >
> >>Co do pierwszego pytania Kuby, to nazwy mieszkancow zniknely z listy typow,
> a
> >>przesuniete zostaly na warstwy zaleznej od jezyka jako derywacje (np.
> Warszawa
> >>-> Warszawiak/nka), gdzie figuruja np. obok przymiotnikow odrzeczownikowych
> >>(Warszawa -> warszawski).
> >
> >
> > czy derywacje maja jakies atrybuty? -- tu: Warszawiak/nka (osoba)
> > pochodzi od Warszawa (miejsce) i do miejsca jest doczepiona (tak?)
> > -- rozumiem, ze to ze Warszawiak/nka jest osoba jest gdzies
> > uwzglednione (tak?)
> Nie bezposrednio. Po pierwsze musze ostrzec, ze ontologia to jedno
> (ogolny szkielet pojec), a jej implementacja (model bazy danych) to
> drugie. Pewne elementy istniejace w implementacji nie pojawiaja sie w
> ontologii jako zbyt szczegolowe. Pytanie o "Warszawiaka" wlasnie nalezy
> do tej kategorii. Otoz "Warszawiak" jako derywacja od "Warszawy" jest
> przewidziany w ontologii (i w implementacji oczywiscie tez). Natomiast
> jego kategoria "rzeczownik relacyjny" jest juz tylko w implementacji
> (inna mozliwa kategoria derywacji to "przymiotnik relacyjny", np.
> warszawski").
> Na razie nie mamy zadnych "rzeczownikow relacyjnych", ktore nie bylyby
> nazwami osob, wiec DOMYSLNIE wszystkie one sa nadtypu "antroponim". Ale
> nie maja osobnego przewidzianego dla nich typu "Mieszkaniec" (co nie
> pzreszkadza w uwzglednieniu takiej etykietki w anotacji).
>
> >>Co do okreslen typu "positions and titles, np. Prof." itd., o ktore pyta
> Kuba,
> >>to oczywiscie nie znajduja sie one na poziomie typow, bo nie sa nazwami
> >>wlasnymi. Ale istnieja w ontologii jako okreslenia jednej z wielu RELACJI
> >>zachodzacych miedzy nazwami wlasnymi. Wezmy za przyklad: Jacques Chirac,
> >>prezydent Francji. [...]
> Winna jestem sprostowanie co do powyzszego (jako ze sama jestem na razie
> srednio zaangazowana w ten projekt, dowiaduje sie niektorych rzeczy na
> biezaco). No wiec w warstwie NIEZALEZNEJ od jezyka miedzy dwiema nazwami
> wlasnymi np "Chirac" i "Francja", zgodnie z tym co napisalam w
> poprzednim mailu, faktycznie zachodzi relacja z atrybutem "polityk".
> Natomiast, co do okreslen typu "prezydent", "dyrektor" itd., to na
> poziomie ZALEZNYM od jezyka opisuja one pojedyncze nazwy wlasne, a nie
> relacje miedzy dwiema nazwami. Bo jak slusznie Magda zauwaza nizej,
> niektore tytuly (np Mr.) nie wyrazaja zadnej relacji.
>
>  > pozycje i (naukowe) tytuly (od biedy) jako relacje (? ze niby
>  > profesor uniwersytetu? magister/doktor od jakichs_nauk?),
>  > ale zwykle "honorifics" (Mr., Ms., etc.) jako elementy
>  > struktury (?) jako atrybuty w zaleznej od jezyka warstwie
>  > ontologii obiektow? -- nie sa relacjne (jak te z "Dostepu"
>  > czy "Opisu") -- podobnie Jr., Sr., I., II., etc. ?
>
>
> > no wlasnie: tu wychodzi semantyczne nastawinie -- mysle,
> > ze takie podejscie by bylo calkiem dobre, pod warunkiem,
> > ze te ontologie rzeczywiscie zaimplementujemy (ta z Prolexu
> > jest zaimplementowana z tego co rozumiem) i zaimplementujemy
> > komunikacje miedzy anotacja a ontologia...
> Dla zaiteresowanych nasza implementacja odsylam na strone
> http://tln.li.univ-tours.fr/tln_prolex/prolex.php gdzie mozliwy jest
> dostep do bazy danych (bedacej implementacja ontologii).
>
> I tu dochodze do sedna moich rozterek, ktora postaram sie w skrocie
> przedstawic, moze ktos ma na nie jakas odpowiedz.
>
> Z tego, co zrozumialam, to uczestniczace w tej dyskusji konsorcjum jest
> gotowe to stworzenia polskiego korpusu anotowanego, a NIE bazy danych
> nazw wlasnych w oparciu o ontologie. Jesli sie mysle, to prosze mnie
> ostrzec, bo bylaby to b. dobra wiadomosc (ale i wiecej pracy niz w
> przypadku korpusu, ktory z natury ma swoje granice). Majac taka baze,
> rozne korpusy anotowane moglibysmy tworzyc prawie automatycznie w
> zaleznosci od zastosowan.
>
> Zakladam wiec ze tej bazy danych dla polskiego nie mamy. Wowczas
> zaadoptowanie ontologii (tzn. "szkieletu" organizujacego pojecia jakimi
> sa nazwy wlasne, ale nie zawierajacego konkretnych nazw) do anotacji
> jest dla mnie bardzo niejasne (wiem, ze to ja sama wyskoczylam z ta
> ontologia...). Gdybysmy CALA ontologie zastosowac chcieli do anotacji,
> to kazda nazwe wlasna wystepujaca w tekscie trzeba by opatrzyc
> dziesiatkami baliz opisujacych jej typ, nadtyp, forme podstawowa,
> derywaty, fleksje, synonimy, meronimy, fonologie, itd. itd. Co jest
> praktycznie niewykonalne jesli nie posiadamy juz gotowej bazy danych
> nazw wlasnych z calym tym bogatym opisem (dla francuskiego baza ta
> tworzona jest od lat prawie wylacznie "recznie"). Po drugie, nawet gdyby
> taka bogata anotacje udalo sie stworzyc, to otrzymany korpus bylby
> prawdopodobnie nieuzyteczny wlasnie z powodu zbyt duzej szczegolowosci.
>
> Nalezy wiec dokonac WYBORU relacji i atrybutow, ktore maja figurowac (w
> postaci baliz) wokol nazw wlasnych wystepujacych w tekscie. Ten wybor
> jest w pewnym sensie nieodwracalny, bo anotowanie bedzie wymagac wielu
> roboczogodzin (ludzkich, nawet przy automatycznym wspomaganiu). Wiec
> jesli zdamy sobie sprawe, ze np. o jakiejs relacji nie pomyslelismy, a
> dla pewnego zastosowania jest ona wazna, to jej dorzucenie bedzie
> oznaczac kolejna ilosc roboczogodzin. Tak wiec trzeba dobrze okreslic
> zastosowania tworzonego korpusu.
>
> Z drugiej strony, poki taki korpus nie istnieje, to trudno jest
> dokladnie ustalic jego zastosowania (na temat zastosowan korpusow dla
> innych jezykow, jak rozumiem nikt z nas nie jest ekspertem). Slowem
> bledne kolo...
>
> Niezlym rozwiazaniem jest zrobic tak jak wszyscy, czyli z grubsza jak
> MUC & Co. Ale problem w tym, ze tam nie ma wynikow dla jezykow
> "egzotycznych", jakim jak wiadomo jest polski. Mysle, wiec ze, obok
> wyborow umotywowanych lingwistycznie niestety trzeba sie bedzie zgodzic
> na pewna ilosc decyzji "na oko".
>
> Tym pesymistycznym akcentem...
>
> Pozdrawiam wszystkich (zwlaszcza tych co dotrwali do konca tej pisaniny)
>
> Agata
>
>


-- 

Dr. Jakub Piskorski
Language Technology Lab
German Research Center for Artficial Intelligence
Saarbruecken, Germany
tel. +49 (681) 302 5306

Quoting Agata SAVARY <agata.savary@xxxxxxxxxxxxx>:

> Dzien dobry,
>
> > ad rem bez wstepu, bo chcialbym sie glownie jeszcze doinformowac:
> >
> >
> >>Co do pierwszego pytania Kuby, to nazwy mieszkancow zniknely z listy typow,
> a
> >>przesuniete zostaly na warstwy zaleznej od jezyka jako derywacje (np.
> Warszawa
> >>-> Warszawiak/nka), gdzie figuruja np. obok przymiotnikow odrzeczownikowych
> >>(Warszawa -> warszawski).
> >
> >
> > czy derywacje maja jakies atrybuty? -- tu: Warszawiak/nka (osoba)
> > pochodzi od Warszawa (miejsce) i do miejsca jest doczepiona (tak?)
> > -- rozumiem, ze to ze Warszawiak/nka jest osoba jest gdzies
> > uwzglednione (tak?)
> Nie bezposrednio. Po pierwsze musze ostrzec, ze ontologia to jedno
> (ogolny szkielet pojec), a jej implementacja (model bazy danych) to
> drugie. Pewne elementy istniejace w implementacji nie pojawiaja sie w
> ontologii jako zbyt szczegolowe. Pytanie o "Warszawiaka" wlasnie nalezy
> do tej kategorii. Otoz "Warszawiak" jako derywacja od "Warszawy" jest
> przewidziany w ontologii (i w implementacji oczywiscie tez). Natomiast
> jego kategoria "rzeczownik relacyjny" jest juz tylko w implementacji
> (inna mozliwa kategoria derywacji to "przymiotnik relacyjny", np.
> warszawski").
> Na razie nie mamy zadnych "rzeczownikow relacyjnych", ktore nie bylyby
> nazwami osob, wiec DOMYSLNIE wszystkie one sa nadtypu "antroponim". Ale
> nie maja osobnego przewidzianego dla nich typu "Mieszkaniec" (co nie
> pzreszkadza w uwzglednieniu takiej etykietki w anotacji).
>
> >>Co do okreslen typu "positions and titles, np. Prof." itd., o ktore pyta
> Kuba,
> >>to oczywiscie nie znajduja sie one na poziomie typow, bo nie sa nazwami
> >>wlasnymi. Ale istnieja w ontologii jako okreslenia jednej z wielu RELACJI
> >>zachodzacych miedzy nazwami wlasnymi. Wezmy za przyklad: Jacques Chirac,
> >>prezydent Francji. [...]
> Winna jestem sprostowanie co do powyzszego (jako ze sama jestem na razie
> srednio zaangazowana w ten projekt, dowiaduje sie niektorych rzeczy na
> biezaco). No wiec w warstwie NIEZALEZNEJ od jezyka miedzy dwiema nazwami
> wlasnymi np "Chirac" i "Francja", zgodnie z tym co napisalam w
> poprzednim mailu, faktycznie zachodzi relacja z atrybutem "polityk".
> Natomiast, co do okreslen typu "prezydent", "dyrektor" itd., to na
> poziomie ZALEZNYM od jezyka opisuja one pojedyncze nazwy wlasne, a nie
> relacje miedzy dwiema nazwami. Bo jak slusznie Magda zauwaza nizej,
> niektore tytuly (np Mr.) nie wyrazaja zadnej relacji.
>
>  > pozycje i (naukowe) tytuly (od biedy) jako relacje (? ze niby
>  > profesor uniwersytetu? magister/doktor od jakichs_nauk?),
>  > ale zwykle "honorifics" (Mr., Ms., etc.) jako elementy
>  > struktury (?) jako atrybuty w zaleznej od jezyka warstwie
>  > ontologii obiektow? -- nie sa relacjne (jak te z "Dostepu"
>  > czy "Opisu") -- podobnie Jr., Sr., I., II., etc. ?
>
>
> > no wlasnie: tu wychodzi semantyczne nastawinie -- mysle,
> > ze takie podejscie by bylo calkiem dobre, pod warunkiem,
> > ze te ontologie rzeczywiscie zaimplementujemy (ta z Prolexu
> > jest zaimplementowana z tego co rozumiem) i zaimplementujemy
> > komunikacje miedzy anotacja a ontologia...
> Dla zaiteresowanych nasza implementacja odsylam na strone
> http://tln.li.univ-tours.fr/tln_prolex/prolex.php gdzie mozliwy jest
> dostep do bazy danych (bedacej implementacja ontologii).
>
> I tu dochodze do sedna moich rozterek, ktora postaram sie w skrocie
> przedstawic, moze ktos ma na nie jakas odpowiedz.
>
> Z tego, co zrozumialam, to uczestniczace w tej dyskusji konsorcjum jest
> gotowe to stworzenia polskiego korpusu anotowanego, a NIE bazy danych
> nazw wlasnych w oparciu o ontologie. Jesli sie mysle, to prosze mnie
> ostrzec, bo bylaby to b. dobra wiadomosc (ale i wiecej pracy niz w
> przypadku korpusu, ktory z natury ma swoje granice). Majac taka baze,
> rozne korpusy anotowane moglibysmy tworzyc prawie automatycznie w
> zaleznosci od zastosowan.
>
> Zakladam wiec ze tej bazy danych dla polskiego nie mamy. Wowczas
> zaadoptowanie ontologii (tzn. "szkieletu" organizujacego pojecia jakimi
> sa nazwy wlasne, ale nie zawierajacego konkretnych nazw) do anotacji
> jest dla mnie bardzo niejasne (wiem, ze to ja sama wyskoczylam z ta
> ontologia...). Gdybysmy CALA ontologie zastosowac chcieli do anotacji,
> to kazda nazwe wlasna wystepujaca w tekscie trzeba by opatrzyc
> dziesiatkami baliz opisujacych jej typ, nadtyp, forme podstawowa,
> derywaty, fleksje, synonimy, meronimy, fonologie, itd. itd. Co jest
> praktycznie niewykonalne jesli nie posiadamy juz gotowej bazy danych
> nazw wlasnych z calym tym bogatym opisem (dla francuskiego baza ta
> tworzona jest od lat prawie wylacznie "recznie"). Po drugie, nawet gdyby
> taka bogata anotacje udalo sie stworzyc, to otrzymany korpus bylby
> prawdopodobnie nieuzyteczny wlasnie z powodu zbyt duzej szczegolowosci.
>
> Nalezy wiec dokonac WYBORU relacji i atrybutow, ktore maja figurowac (w
> postaci baliz) wokol nazw wlasnych wystepujacych w tekscie. Ten wybor
> jest w pewnym sensie nieodwracalny, bo anotowanie bedzie wymagac wielu
> roboczogodzin (ludzkich, nawet przy automatycznym wspomaganiu). Wiec
> jesli zdamy sobie sprawe, ze np. o jakiejs relacji nie pomyslelismy, a
> dla pewnego zastosowania jest ona wazna, to jej dorzucenie bedzie
> oznaczac kolejna ilosc roboczogodzin. Tak wiec trzeba dobrze okreslic
> zastosowania tworzonego korpusu.
>
> Z drugiej strony, poki taki korpus nie istnieje, to trudno jest
> dokladnie ustalic jego zastosowania (na temat zastosowan korpusow dla
> innych jezykow, jak rozumiem nikt z nas nie jest ekspertem). Slowem
> bledne kolo...
>
> Niezlym rozwiazaniem jest zrobic tak jak wszyscy, czyli z grubsza jak
> MUC & Co. Ale problem w tym, ze tam nie ma wynikow dla jezykow
> "egzotycznych", jakim jak wiadomo jest polski. Mysle, wiec ze, obok
> wyborow umotywowanych lingwistycznie niestety trzeba sie bedzie zgodzic
> na pewna ilosc decyzji "na oko".
>
> Tym pesymistycznym akcentem...
>
> Pozdrawiam wszystkich (zwlaszcza tych co dotrwali do konca tej pisaniny)
>
> Agata
>
>


-- 

Dr. Jakub Piskorski
Language Technology Lab
German Research Center for Artficial Intelligence
Saarbruecken, Germany
tel. +49 (681) 302 5306

Other related posts: