[korpusne] Re: Standardy anotacji nazw wlasnych

  • From: Kuba Piskorski <piskorsk@xxxxxxx>
  • To: korpusne@xxxxxxxxxxxxx
  • Date: Wed, 19 Oct 2005 11:09:48 +0200


Witam,

No tak, troche czasu juz minelo, a nic sie faktycznie nie wydarzylo. To moze ja krotko
tylko napisze, ze pytano mnie w kuluarach o kwestie praw do takiego zaanotowanego korpusu itd.
Jeszcze raz chcialem podkreslic, ze powinno to byc ogolnie i bezplatnie dostepne, z czym chyba
wszyscy sie zgadzaja :-) Moglibysmy natomiast opublikowac to co zrobimy, tzn. mam tu na mysli
dwie rzeczy: wytyczne jak i co anotowac, jak rowniez informacje o samym korpusie + ewentualnie strona
www. Oczywiscie, kazdy bedzie mog wtedy podszyc to pod jakis swoj projekt, grant itd., o ktrorych wspomnimy
w Acknowledgements. W tej chwili wydaje mi sie, ze powinnismy ostatecznie zadecydowac, jaki format wybieramy.
TIPSTER uwazam za jak najbardziej adekwatny.


Jest jeszcze kwestia korpusu. Poniewaz jednym z kandydatow na korpus jest online wersja Rzeczpospolitej,
o ktorej juz chyba jakis czas temu pisalem, a do tego korpusu przyznal sie D. Weiss, wiec po konsultacjach z nim,
jest nastepujaca propozycja, zeby wystapic oficjalnie do Rzeczypospolitej o udostepnienie probki aktualnych danych
do badan. Najlepszym rozwiazaniem byloby gdyby jedna z instytucji, zktorych sie wywodzimy wystapila
do Rzczypospolitej. Tu wstepny pomysl byl zeby zrobil to IPI PAN ze wzgledu na niekomercyjny profil
tej unstytucji jak rowniez prestiz tejze placowki. Reszta moglaby sie dopisac jako partnerzy. Jak sadzicie,
czy mozemy isc tym tropem ? Strategiocznie to chyba najlepsze rozwiazanie. Agnieszka Mykowiecka z IPI wstepnie
wyrazila gotowosc sformulowania takiego zapytania/prosby do Rzeczypospolitej.


Teraz wracajac do opracowania wytycznych dot. anotacji, proponuje podzielic sie na dwojki (ew. trojki (kazdy z innej instytucji),
ktore opracuja wytyczne dla poszceglonych kategorii, tzn. organizacji, osob, lokalizacji itd. Przez wytyczne rozumiem: (1)
uszczegolownienie podkategorii dla poszczegolnych kategorii (jako material wstepny mozna wziasc to co rozeslalem
jakis czas temu po wymianie maili z niektorymi z Was) i zrobienie dla kazdej podklasy przykladu lub dwoch. Tak wiec nie jest to az tak duzo pracy, a jak sie podzielimy, to chyba szybko bedzie widac efekty. Na dzien dzisiejszy wiem, ze:


AE z Poznania (A. Filipowska) chce sie zajac wytycznymi dla lokalizacji/nazw geograficznych
Pawel Mazur (Politechnika Wroclaw) chyba chetnie zajmie sie kazda kategoria :-)
Ja (Kuba) moge zrobic z kims wytyczne dla organizacji


Czy reszta moglaby sie zadeklarowac, dla ktorej kategorii chcialaby przygotowac wytyczne i do kogo ewentualnie
chcialaby sie przylaczyc? Oprocz 3 podstawowych kategorii, tj. organizacji, osob i lokalizacji, dorzscilbym jeszcze
nazwy produktow. Takze czekam z utesknieniem, na zlgloszenia wolontariuszy :-) Napiszcie w miare szybko
zeby mi zapal nie minal :-)


Jak bedziemy juz to wiedzieli, kto co robi, to zrobie szablon w Latexu, ktory rozesle do wszystkich do uzupelnienia.

Magda Wolska miala tez napisac cos o danych, ktore moga byc dobra inspiracja dot. dopracowania szczegolow.
odnosnie poszcegolnych kategorii. Chcialem jek tutaj tylko o tym przypomniec.


To tyle na dzisiaj,

QBA

At 07:09 AM 10/19/2005, you wrote:
Witam,

Czy moglibysmy zrobic jakas liste ogolnie przyjetych standardow do anotacji nazw wlasnych w tekstach, zarowno in-line jak i stand-off?

Za pierwszy z brzegu taki standard mozna by uznac TIPSTER.
Pod adresem http://www.ldc.upenn.edu/annotation/ jest lista
innych anotacji (nie wszystkie koniecznie odnosza sie do nazw wlasnych ale czesc owszem).


Chodzi mi o wasze opinie i komentarze do 'jakichs' standardow i rozwiazan z ktorymi sie zetkneliscie w roznych projektach badz tez uslyszeliscie gdzies i co do ktorych macie pewny stosunek (pozytywny badz tez negatywny).

Bo z tego co pamietam to stanelismy na etapie ustalenie ze do naszego korpusu robimy plik zewnetrzny z uzyciem offsetow, natomiast mysle, ze moze warto byloby uzyc jakiegos istniejacego formatu - wowczas aby skorzystac z dodatkowych narzedzi czy tez korpusow nie trzeba by juz pisac dodatkowych konwerterow anotacji.

pozdrawiam,
Pawel




__________________________________________________________________
Dr. JAKUB PISKORSKI
GERMAN RESEARCH CENTER FOR ARTIFICIAL INTELLIGENCE
Stuhlsatzenhausweg 3, D-66123 Saarbruecken, Germany
phone: +49 (681) 302 5306
PRIVATE: Grossherzog-Friedrichstrasse 60, 66121 Saarbruecken, Germany
phone: +49 (681) 9 386 766
HEADQUARTERS: ul.Strzecha 37, 60-287 Poznan, Poland
phone: +48 (61) 8 610 707


Other related posts: