[korpusne] Re: Standardy anotacji nazw wlasnych

  • From: Agata SAVARY <agata.savary@xxxxxxxxxxxxx>
  • To: korpusne@xxxxxxxxxxxxx
  • Date: Wed, 26 Oct 2005 14:43:37 +0200

Dzien dobry,
Ciesze sie z obszernej reakcji jaka wzbudzily wyslane przeze mnie artykuly. Od razu spiesze ze sprostowaniami. Okazuje sie, ze artykuly te nie zawsze podaja ostateczna wersje ontologii, gdyz od ich ukazania sie podlegala ona kolejnym ulepszeniom. Obecnie, wyglada na stabilna, a jej najbardziej aktualna wersja znajduje sie w raporcie wyslanym przeze mnie, ktory niestety jest po francusku. Sprobuje wiec strescic po polsku glowne zalozenia.


Lista nadtypow sie nie zmienila
I. Antroponim (osoba indiwidualna lub "kolektywna")
II. Toponim (miejsce)
III. Ergonim (przedmiot, wytwor)
IV. Pragmonim (wydarzenie)

ale lista typow zostala zredukowana do 26. Oto pelna lista

Typ - Nadtypy - przyklady
1. Slawny czlowiek - Antroponim - Victor Hugo
2. Nazwisko - Antroponim - Kowalski
3. Imie - Antroponim - Jan
4. Pseudo-antroponim - Antroponim - Sputnik, Robocoop
5. Stowarzyszenie - Antroponim (zbiorowy) i Ergonim - Partia Pracy
6. Zwiazek - Antroponim (zbiorowy) i Ergonim - The Beatles, Olympique Marseille
7. Przedsiebiorstwo - Antroponim (zbiorowy) i Ergonim, Ergonim i Toponim - Bull
8. Instytucja - Antroponim (zbiorowy) i Ergonim - Polska Akademia Nauk
9. Organizacja - Antroponim (zbiorowy) i Ergonim - NATO
10. Cialo niebieskie - Toponim - Jowisz
11. Miejsce geograficzne ("naturalne") - Toponim - Beskid Niski
12. "Cialo" wodne - Toponim - Moskie Oko, Bialy Potok.
13. Kraj (niepodlegle panstwo obecne lub historyczne) - Toponim i Antroponim - Zwiazek Radziecki
14. Region (wynikajacy z podzialu administracyjnego lub wyspa..) - Toponim i Antroponim - Bawaria
15. Obszar nadnarodowy - Toponim i Antroponim - Europa, Indochiny, Bliski Wschod
16. Miasto - Toponim, Antroponim i Ergonim - Zielona Gora
17. Budowla - Toponim i Ergonim - Wieza Eiffla
18. Ulica lub dzielnica - Toponim i Ergonim- Aleje Ujazdowskie, Plac Zbawiciela, Bielany
19. Dzielo - Ergonim - Mona Lisa, "Cierpienia mlodego Wertera"
20. Produkt (lub marka)- Ergonim - BMW
21. Pojazd - Ergonim i Toponim - Apollo, Stefan Batory
22. Catastrofa - Pragmonim - Czernobyl
23. Swieto - Pragmonim i Ergonim - 11 listopada
24. Wydarzenie historyczne - Pragmonim i Ergonim - Sobor Watykanski II, Okragly Stol
25. Impreza - Pragmonim i Ergonim - Konkurs Chopinowski
26. Zjawisko meteorologiczne - Pragmonim - El Nino, Halny


Co do pierwszego pytania Kuby, to nazwy mieszkancow zniknely z listy typow, a przesuniete zostaly na warstwy zaleznej od jezyka jako derywacje (np. Warszawa -> Warszawiak/nka), gdzie figuruja np. obok przymiotnikow odrzeczownikowych (Warszawa -> warszawski).

Co do okreslen typu "positions and titles, np. Prof." itd., o ktore pyta Kuba, to oczywiscie nie znajduja sie one na poziomie typow, bo nie sa nazwami wlasnymi. Ale istnieja w ontologii jako okreslenia jednej z wielu RELACJI zachodzacych miedzy nazwami wlasnymi. Wezmy za przyklad:

Jacques Chirac, prezydent Francji.

- Zarowno "Jacques Chirac" jak i "Francja" maja swoje identyfikatory (na poziomie jezykowo niezaleznej, bo nazywaja byty niezalezne od jezyka). Sa podporzadkowane do typow "Slawny czlowiek" i "Kraj", a te z kolei sa podporzadkowane do nadtypow "Antroponim" i "Toponim"/"Antroponim".

- Miedzy tymi dwoma "bytami" ("Jacques Chirac" i "Francja") zachodzi relacja "Dostepu" na poziomie NIEZALEZNYM od jezyka; ta relacja ma atrybut "polityk" (bo Chirac jest politykiem we Francji).Innymi mozliwymi atrybutami tej samej relacji sa "Wiez rodzinna", "Stolica", "Szef przedsiebiorstwa", itp.). Chodzi tu o ujecie relacji, ktore sa mniej wiecej identyczne w roznych jezykach.

- Miedzy tymi samymi bytami zachodzi tez relacja "Opisu" na poziomie ZALEZNYM od jezyka; ta relacja ma atrybut "prezydent" (inne mozliwe atrybuty sa liczne, np. "brat", "zona", "premier", itd.). Na tym poziomie chodzi o to, ze niektore atrybuty nie maja swoich odpowiednikow we wszystkich jezykach (kulturach).

Ogolnie rzecz biorac konstrukcja tego typu ontologii nie jest zbyt prosta: istnieja rozne warstwy, relacje i atrybuty. Do tego ontologia nie jest identyczna z modelem bazy danych, bardziej szczegolowszym, ktory te ontologie implementuje.

Ale oczywiscie, ze nie wszystkie wlasnosci ontologii musza miec swoje odzwierciedlenie w anotacji. Ale o tym bedzie nastepny mail, bo tez juz jest troche przydlugi..

Pozdrawiam wszystkich

Agata Savary

PS: Osoby wrazliwe na poprawna polska terminologie lingwistyczna przepraszam za moja wlasna jej nieznajomosc i za byc moze razace anglicyzmy.


Kuba Piskorski wrote:


Witam,

No wiec ja poswiecilem sie tej lekturze i mam nastepujaca refleksje. Wasza
hierarchia typow pokrywa sie w duzym stopniu z tym co zrobil Sekine, z tymze,
terminologia jest bardziej fachowa i elegancka. Pozatym on robil heirarchie dla
named-entities, a Wasza praca dotyczny proper names. named-entities zawieraja
tez takie rzeczy jak daty czy cale wytazenia monetarne itd. czego wy nie uwzgledniacie.
Poniewaz jednak rozpoznawanie dat i wyr. monetarnych w tekstach niekoniecznie nas interesuje
(jest to relatywnie proste), proponowalbym, zebysmy uzyli Waszej ontologii.


Mam jednak dwa pytania.

(1) W tabelce (Types and hypertypes) w jednym z dokumentow, zastanawialo mnie czemu nie robicie
bardziej szczegolowego podzialu, np. rozroznienia na names of inhabitants i people names. W tabelce
jest to wyszczegolnione jako jeden typ, a to nie jest zbyt szczesliwe. Moze zle interpretuje tabelke, ktora
zawiera tylko przyklady typow dla hipertypow :-)


(2) Druga sprawa to, ze chcielibysmy rozpoznawac np. positions and titles, np. Prof. , czy CEO a tego
tez nie znalazlem w Waszej ontologii bo to nie sa proper names. Ktos wspominal, ze byloby to przydatne
juz wczesniej.


To tyle z mojej strony. W szczegolnosci trzeba by bylo podjac decyzje czy faktycznie chcemy rozpoznawac
desygnatory i rozne takie positions etc. Co sadzicie ?


Pozdrawiam,

QBA

At 12:26 PM 10/20/2005, you wrote:

Dzien dobry,
Na prosbe Kuby i Pawla w zalaczniku:

- Dla osob anglojezycznych:
Tran M., Grass T., Maurel D. (2004), An ontology for multilingual treatment of proper names, Ontologies and Lexical Resources in Distributed Environments (OntoLex 2004), in Association with LREC2004 (Actes p. 75-78), Lisbonne, Portugal, 29 mai. - wersja robocza artykulu, bardziej szczegolowa niz ostateczna (2004ontolex_prev.zip)


Krstev C., Vitas D., Maurel D., Tran M. (2005), Multilingual Ontology of Proper Names, Second Language & Technology Conference, 116-119, Poznan, Poland, 21-23 avril. (2005ltcKrstev.zip)

- Dla francuskojezycznych (raport najbardziej szczegolowy i najbardziej aktualny)
Maurel D., Tran M., Vitas D., Grass T., Savary A. (2004), Prolex : Une ontologie multilingue des noms propres, Rapport interne du Laboratoire d'Informatique de l'Université François-Rabelais de Tours, n°279, 37 p. (2005RapportOntologieProlex.zip)


Co do udzialu w podgrupach, to jestem chetna do dowolnej kategorii, ale chcialabym, zebysmy najpierw spisali ogolnie przyjete zalozenia, bo po tej dosc juz bogatej dyskusji nie wiem co w koncu ustalilismy. Dodatkowo, jesli jakies standardy wchodza w gre, to prosze o podanie odnosnikow uznanych przez osoby zorientowane za najbardziej przydatne.

Pozdrawiam

Agata

Kuba Piskorski wrote:

Agata,
przeslij moze ten artykul na liste, jezeli mozna. Warto bylby to porownac z ta nasza skromniutka hierarchia
bytow nazwanych.
At 06:01 PM 10/19/2005, you wrote:


Dzien dobry,
Co do uszczegolownienia podkategorii dla poszczegolnych kategorii, to moze do czegos przyda sie ontologia dla nazw wlasnych zaproponowana w mojej grupie.
Ogolnie rzecz biorac, na szczycie tej ontologii sa nadtypy:
- antroponimy (nazwy osob pojedynczych lub zbiorowych)
- ergonimy (nazwy przedmiotow i dziel)
- toponimy (nazwy miejsc)
- pragmonimy (nazwy wydarzen)
Pod nadtypami znajduje sie 29 typow (nazwiska, organizacje, miasta etc.). Wazne wydaje mi sie to, ze jeden typ moze nalezec do kilku podtypow, np. nazwy instytucji sa zarazem antroponimami, typonimami i ergonimami. Jest to wazne, gdyz skladniowo te nazwy zachowuja sie inaczej w zaleznosci od tego, do jakiego nadtypu naleza.


W programie ACE uwzgledniono takie niejednoznacznosci poprzez wprowadzenie odpowiednich
typow, np. geo-political entity


Dalej w tej ontologii sa relacje zachodzace miedzy nazwami wlasnymi (np. Paryz "jest stolica" Francji, Ile-de-France "nalezy do" Francji), jak rowniez informacje lingwistyczne (np. fleksja), ale to chyba zbyt szczegolowe dla projektu anotacyjnego.

Jesli ktos jest zainteresowany szczegolowszym opisem, to moge udostepnic artykul.

Co do komentarza Ani Kupsc na temat teminologii, to zgadzam sie, ze rozpoznawanie terminow i rozpoznawanie nazw wlasnych niewiele sie roznia. Poza tym wiele nazw wlasnych jest terminami i odwrotnie. Problem tylko w tym, na ile szczegolowy ma byc ten korpus.


Wracajac jeszcze do tworzenia par do poszcegolnych typow, to byloby dobrze zeby w kazdej dwojce byla jedna osoba bedaca lub znajaca sie dobrze na lingwistyce.
Oczywiscie, artykul Agaty moze troche namieszac, ale o to chodzi zeby mieszac :-)
pozdrawiam,
QBA



Pozdrawiam wszystkich

Agata Savary

--
Agata SAVARY
Maître de conférences
IUT de Blois
Université François Rabelais de Tours
3, place Jean-Jaurès
41029 Blois
agata.savary@xxxxxxxxxxxxx
tél. ++33 (0) 2 54 55 21 47
fax  ++33 (0) 2 54 55 21 32
http://www.blois.univ-tours.fr/~savary/


__________________________________________________________________
Dr. JAKUB PISKORSKI
GERMAN RESEARCH CENTER FOR ARTIFICIAL INTELLIGENCE
Stuhlsatzenhausweg 3, D-66123 Saarbruecken, Germany
phone: +49 (681) 302 5306
PRIVATE: Grossherzog-Friedrichstrasse 60, 66121 Saarbruecken, Germany
phone: +49 (681) 9 386 766
HEADQUARTERS: ul.Strzecha 37, 60-287 Poznan, Poland
phone: +48 (61) 8 610 707


-- Agata SAVARY Maître de conférences IUT de Blois Université François Rabelais de Tours 3, place Jean-Jaurès 41029 Blois agata.savary@xxxxxxxxxxxxx tél. ++33 (0) 2 54 55 21 47 fax ++33 (0) 2 54 55 21 32 http://www.blois.univ-tours.fr/~savary/






__________________________________________________________________
Dr. JAKUB PISKORSKI
GERMAN RESEARCH CENTER FOR ARTIFICIAL INTELLIGENCE
Stuhlsatzenhausweg 3, D-66123 Saarbruecken, Germany
phone: +49 (681) 302 5306
PRIVATE: Grossherzog-Friedrichstrasse 60, 66121 Saarbruecken, Germany
phone: +49 (681) 9 386 766
HEADQUARTERS: ul.Strzecha 37, 60-287 Poznan, Poland
phone: +48 (61) 8 610 707




-- Agata SAVARY Maître de conférences IUT de Blois Université François Rabelais de Tours 3, place Jean-Jaurès 41029 Blois agata.savary@xxxxxxxxxxxxx tél. ++33 (0) 2 54 55 21 47 fax ++33 (0) 2 54 55 21 32 http://www.blois.univ-tours.fr/~savary/

Other related posts: