[korpusne] Re: Standardy anotacji nazw wlasnych

  • From: magdalena wolska <magda@xxxxxxxxxxxxx>
  • To: korpusne@xxxxxxxxxxxxx
  • Date: Wed, 26 Oct 2005 02:12:38 +0200 (CEST)

witam,

Kuba, przepraszam za zaniemowienie -- juz przesylam co mialam:

* tu o: http://ldc.upenn.edu/Catalog/CatalogEntry.jsp?catalogId=LDC2005T33
  jest, jak mi sie wydaje, przyklad tego, co w przyblizeniu chcielibysmy 
  w przyszlosci miec (dokumentacja tu:  
  http://www.ldc.upenn.edu/Catalog/docs/LDC2005T33/BBN-Types-Subtypes.html)

* biorac pod uwage Ani zyczenie odnosnie terminologii, mysle ze jest sens
  uwzgledniac nie tylko "named entities", lecz, jak w powyzszym, rowniez
  "nominal entities" -- tym bardziej, ze w danej dziedzinie, mozna sobie
  wyobrazic, funkcjonuja one jak nazwy wlasne (e.g. w zoologii "Slonie" na
  okreslenie rzedu) -- i to uwzglednia klasyfikcja z MaurielEtAl05 (raport
  Prolex przeslany przez Agate) w ramach typu "Pseudo-anthroponym"  
  (zoonim) -- podobnie zapewne z nazwami roslin i podobnie mozna by zrobic
  z nazwami chorob/lekow w medycynie... czy innymi generalnie
  "classificatory terms" (taxonyms) -- niestety nic mi nie wiadomo o
  okresleniu "pathonym" (-; co na to obecni na liscie onomasci? -- mozna
  by po prostu dodac do drugiego poziomu pod-typ "taxonym"  i w ramach
  niego dziedzine do ktorej sie odnosi (btw, wtedy trzeba by ustalic czy w
  przypadku eponimow np. "choroba Alzheimera" anotowac Alzheimera rowniez
  jako "person name"  czy w ramach medycznych taxonyms zaznaczac, ze
  eponim... -- a moze to w ogole za duzo zamieszania i sam medyczny
  termin wystarczy?...)

* jezeli mamy zamiar (w blizej nieokreslonej przyszlosci) rozszerzyc
  anotacje o koreferencje, to tym bardziej nie tylko proper names, lecz
  rowniez deskryptory -- to sie z kolei wiaze z Kuby pytaniem (2) "Druga
  sprawa to, ze chcielibysmy rozpoznawac np. positions and titles, np.
  Prof. , czy CEO a tego tez nie znalazlem w Waszej ontologii bo to nie sa
  proper names. Ktos wspominal, ze byloby to przydatne juz wczesniej."

  mowisz o _strukturze_ poszczegolnych instancji (i, btw, vide
  TranGrassMaurel05, jeden z tych przeslanych przez Agate, str. 5
  "Aliases" i "Extended context" oraz MacDonald96 (standard bib-ref)) --
  to jest przydatne do (automatycznego) rozpoznawania, ale z punktu
  widzenia ontologii pojec samej w sobie nieistotne (chyba, ze rozszerzyc
  hierarchie pionowo...(co wydaje mi sie w tym przypadku zbyteczne))

> (1) W tabelce (Types and hypertypes) w jednym z dokumentow, 
> zastanawialo mnie czemu nie robicie bardziej szczegolowego podzialu, 
> np. rozroznienia na names of inhabitants i people names. W tabelce
> jest to wyszczegolnione jako jeden typ, a to nie jest zbyt 
> szczesliwe. Moze zle interpretuje tabelke, ktora zawiera tylko
> przyklady typow dla hipertypow :-)

z tego co rozumiem tabelka zawiera nie tylko przyklady, ale wszystkie typy
w ramach drugiego poziomu hierarchii (ma ich byc 29 i tylez rzedow w
tabelce (-; ) -- powiem szczerze, ze tez mnie troche zmylila ta tabelka,
ale z innego powodu -- motywacja maja byc, jak wynika z paragrafu drugiego
na stronie z tabelka, "homogenous sementical characteristics":  nie
rozumiem rozroznienia "First names" i "Names of inhabitants...and people
names" -- jak proponuje Kuba, rozdzielilabym te druga na "demonyms"
(inhabitants) i "patronyms" nawet z ta sama motywacja

"mysli zebrane":

* istnieje cos takiego jak EuroVoc -- tezaurus -- mozna by tego uzyc jako
  inpiracje do tworzenia klas -- coby relewantne rzeczy z EuroVoca daly
  sie latwo sklasyfikowac == coby byc z nim "kompatybilnym"
  (perspektywicznie i strategicznie myslac?)

* istnieje cos takiego jak Getty Thesaurus -- z tym tez moze by warto byc
  kompatybilnym

* najwazniejsze:  w zaleznosci od tego _do_czego_ ta anotacja ma sluzyc
  mozna rozwazyc dodatnie rzeczy zwiazanych z dokumentami
  prawniczymi/rzadowymi etc. (nazwy ustaw, dekretow, konstytucji etc.) 
  -- jeszcze raz:  _do_czego_ ta anotacja ma sluzyc? i do czego
  _w_pierwszym_przyblizeniu_ ta anotacja ma sluzyc? -- i.e. pierwszym
  zastosowaniem by mialo byc automatyczne rozpoznawanie ww. nazw czy od
  razu na przyklad eksperymenty z IR na anotowanym tekscie -- w zaleznosci
  od odpowiedzi warto sie zastanowiac nad tym czy w pierwszym przyblizeniu
  interesowac sie np. struktura (Kuby uwaga o tym, ze "chcielibysmy
  rozpoznawac np. positions and titles, np. Prof. , czy CEO") i
  deskryptorami (--> auto rozpoznawanie -- hierarchia moglaby do tego byc
  bardzo plaska -- nawet tylko MUC + deskryptory dla klas MUCa) czy jak
  najbardziej wyczerpujaca ontologia pojec i relacji miedzy nimi (--> IR,
  MT, etc.;  to mozna zawsze dodac do juz istniejacej plaskiej hierarchii...)

(-:
m

Other related posts: