[korpusne] Re: Korpus: Co chcemy anotowac ?

  • From: Pawel Mazur <pawel.mazur@xxxxxxxxxxx>
  • To: korpusne@xxxxxxxxxxxxx
  • Date: Sat, 24 Sep 2005 19:36:03 +1000

Witam,

Organizacje: jestem za splaszczeniem struktury.
Ponadto mam watpliwosci co do wyboru kategorii i niejednoznacznosci:
np. Komisja Europejska, a Ministerstwo Finansow:

Person:
Proponuje rozrozniac:
- PersonDesignator (Pan, Pani)
- GivenName (Jan, Anna)
- FamilyName (Kowalski)

Facilities:
Proponuje dodac:
- Product name (Excel, Gadu-Gadu, Snickers)
- Building (sad, muzeum, itd)


pozdrawiam, Pawel Mazur



Kuba Piskorski wrote:

Witam wszystkich,

Dziekuje bardzo wszystkim zainteresowanym za feedback odnosnie pomyslu przygotowania
korpusu (albo korpusiku). Mysle, ze jednoczac sily uda sie w miare szybko stworzyc ladne cacko.


Niektorzy z Was pisali, ze nie wiedza jeszcze w jakim stopniu beda sie w stanie w cala zabawe
zaangazowac. Wedlug mnie najistotniejsze jest, zebysmy sie wymieniali pomyslami i uwagami,
czyli jak to sie ladnie po angielsku mowi "share the feelings with the group", a kto ile zrobi to juz
dalsza sprawa. Najwyzej nie dostanie bonusu :-)


Nasjistotniejsza kwestia w tej chwili jest ustalenie tego co bedziemy anotowac i jak ?, czyli
stworzenie pewnych wytycznych. I w tym mailu pisze tylko o tym.


Tak z grubsza zakladam, ze interesuja nas nazwy organizacji, osob i miejsc (ewentualnie produkty),
czyli wszystko to co wystepuje w czesto w artykulach prasowych. Inne dziedziny, tez jak najbardziej,
ale prase proponowalbym wziasc na pierwszy ogien.


Co do typow bytow nazwanych, zamieszczam jeszcze raz zmodyfikowana nieco liste z przykladami:

Organizacje (Kategoria/Przyklad)
--------------------------------------------

company: Evatronix SA
company_group: Grupa PZU
market: Gielda Papierow Wartosciowych w Warszawie
military: Wojsko Ochrony Pogranicza
institution:
- public institution: Komisja Europejska
- educational_institution
- university: Centrum Prawa Europejskiego Uniwersytetu Gdanskiego
- academy: Akademia Ekonomiczna w Poznaniu
- school
- primary_school: Szkola nr 80 w Poznaniu
- secondary_school I Katolickim Liceum Spolecznym
- institute: Mercuria Business School "
- political_organization
- government_organization: Ministerstwie Finansów
- political_party: Socjaldemokracji Polskiej
- sport_organization: Warrior Morliny Ostróda


UWAGA: Byc moze, prosciej bedzie splaszczyc cale hierarchie, tzn. zredukowac to do
nast. kategorii: company, company group, market, military, public institution, educational institution,
political organization i sport organization


Osoby:
---------

person:
       -unnamed: Jan Kowalski
       -named: Prof. Jan Kowalski, jr.

Lokalizacje (nie wiem czy to najszczesliwsza nazwanie tego)
---------------

location-type
    - address
        - postal_address: ul. Sienkiewicza 234
        - internet_address: 234.343.34.234
        - phone_number: 23 23 23
        - url: http://www.onet.pl
        - email: piskorsk@xxxxxxx
    - geological_region
         - landform
             - mountain: Rysy
             - highland: Wyzyna Malopolska
             - lowland: Dolina Pieciu Stawow
    - water_form
         - river: Wisla
         - sea: morze Baltyckie
         - lake: Wigry
         - ocean: ocean Spokojny
    - region
        - continent: Afryka
        - island: Wyspy Wiekanocne
        - peninsula: Polwysel Helski
    - ciala astralne: Mars
    - gpe (geopolitical entity - byty geopolityczne)
        - city: Poznan
        - country: Polska
        - province: wojewodztwo poznanskie
        - county: powiat koszalinski
        - commune: gmnia Lekodoly

Obiekty urbanistyczno-architektoniczne (Facilities):
--------------------------------------------------------------------
- museum: muzeum Instrumentow Muzycznych w Poznaniu
- monument: pomnik Mickiewicza
- park: Park im. Swietego Mikolaja
- transport_facility: lotnisko Lawica
- other: most Sw. Rocha

UWAGA: tutaj nie jestem do konca pewien czy ta ostatnia kategoria nie powinna byc zaamalgamowana z
'locations'. Czy ktos ma jakis pomysl ?


To jest w zasadzie taka propozycja (po tym co niektorzy z Was napisali itd.) do przedyskutowania. Prosze o komentarz i propozycje zmian/uproszczen/ modyfikacji itd.

Oczywiscie, istnieje jeszcze kilka problemow/kwestii ogolnie znanych, o ktorych mi pisaliscie:

1) Co stanowi element anotacji ?

> 3. Te kategorie, ktore opisales -- warto byloby wzbogacic je o wiecej przykladow i np. oznaczyc fragmenty z kontekstu, ktore > uznajemy za element anotacji. ("[adademia ekonomiczna] w Poznaniu" czy "[akademia ekonomiczna w poznaniu]"? Jesli to > > drugie, to te same byty w jednym tekscie moga miec rozna reprezentacje.)

Ja bym proponowal oznaczac to co nalezy do nazwy, czyli w tym przykladzie: Akademia Ekonomiczna w Poznaniu
Z pewnoscia bedzie wiecej przypadkow spornych i niektorzy z as maja tu wiecej doswiadczen.


2) Co robic w przypadku wieloznacznosci:

Poniewaz anotacja bedzie w odrebnym pliku, mozemy dla tego samego fragmentu tekstu podac dwie anotacje z roznymi kategoriami.

3) Czy we fragmentacg jak np. ten "Szkola Glowna w Warszawie", chcemy anotowac calosc, tzn. "Szkola Glowna w Warszawie" i "w Warszawie" ?

Ze wzgledu na przydatnosc takiej informacji (mozemy byc zainteresowani tylko miastami) proponowalbym uwzglednienieobu anotacji zarowno calosci jak i tego co wewnatrz.

4) Format anotacji:

Propozycja:

plik tekstowy, w ktorym kazdy wiersz odpowiada pojedynczej anotacji i zawiera 4 pola:

start_character
end_character
kategoria
ID

Wszystkie zaanotowane fragmenty tekstu odnoszace sie do tego samego bytu (w obrebie tego samego dokumentu) powinny miec ten sam ID

oczywiscie idealnie byloby tam umiescic forme podstawowa rozpoznanej nazwy, ale
nie wiem czy to nie bedzie zbyt czasochlonne ze wzgledu na ewtl wieloznacznosci


5) Czy anotowac odwolania zaimkowe i nominalne do bytow nazwanych ?

Jak najbardziej, ale to mozna zrobic pozniej

---------------------------------------------------------------------------------------------------------


To tyle w takim razie na dzisiaj. Czekam na feedback. W szczegolnosci odnosnie listy kategorii.

pozdrawiam i milego weekendu.

QBA






__________________________________________________________________ Dr. JAKUB PISKORSKI GERMAN RESEARCH CENTER FOR ARTIFICIAL INTELLIGENCE Stuhlsatzenhausweg 3, D-66123 Saarbruecken, Germany phone: +49 (681) 302 5306 PRIVATE: Grossherzog-Friedrichstrasse 60, 66121 Saarbruecken, Germany phone: +49 (681) 9 386 766 HEADQUARTERS: ul.Strzecha 37, 60-287 Poznan, Poland phone: +48 (61) 8 610 707







Other related posts: