W środę pojawiła się długo oczekiwana przeze mnie publikacja -podręcznik/opis/książka kucharska Słowosieci, polskiej edycji Wordnetu. Można ją ściągnąć z:
http://www.plwordnet.pwr.wroc.pl/main/content/files/publications/A_Wordnet_from_the_Ground_Up.zip
To wrocławskie przedsięwzięcie jest ze wszech miar fenomenalne – biorąc pod uwagę problematyczność, jaką sprawia język polski.
W projekcie chodzi o prostą rzecz – podaj słowo, a dostaniesz jego znaczenie, gdzie znaczenie jest definiowane (zgodnie z ideą ontologii) jako jego poszczególne elementy składowe. Te elementy to synsety, które (jak ja to widzę) stanowią ekwiwalenty znaczeniowe danego wyrazu, tzn. takie wyrazy, które pojawiają się w analogicznych strukturach treściowych (jeżeli ktoś to czyta ze Słowosieci, niech mnie poprawi!). Na stronie Wordnetu nazywają to kognitywnymi synonimami. Fragment przedmowy:
“Język dla którego nie istnieje wordnet jest w kłopotliwym położeniu w dobie gwałtownego rozwoju systemów dostępu do elektronicznej informacji. W książce opisujemy początkowe etapy pracy nad długofalowym projektem zmierzającym do zapewnienia podobnego zasobu językowego dla języka polskiego. Nasza książka jest adresowana do różnorodnych czytelników. Naturalnym adresatem jest osoba pracująca z wordnetami lub nad konstrukcją wordnetów. Staraliśmy się, aby nasze doświadczenie z jednym językiem naturalnym było dostępne dla osób nie znających tego języka. Informatycy pracujący nad przetwarzaniem tekstów w języku polskim mogą znaleźć w książce szereg potencjalnie interesujących technicznych dyskusji. Lingwiści, którzy posługują się komputerami w swoich badaniach mogą odkryć, że istnieje kilka dalszych narzędzi, które mogą się okazać bardzo przydatnym rozszerzeniem ich warsztatu pracy. Dla naukowców specjalizujący się w statystycznych metodach analizy semantycznej tekstu zawarty w publikacji przegląd prac z dziedziny może się okazać interesujący.
Kiedy rozpoczynaliśmy naszą pracę kilka lat temu nie było dostępnego wordnetu języka polskiego. Zdecydowaliśmy się na skonstruowanie tego zasobu językowego od podstaw, zamiast na tłumaczenie angielskiego wordnetu i późniejsze jego dostosowywanie do języka polskiego.”
W sensie na ich stronie jest przeglądarka przez WWW, więc koniecznie należy się pobawić.
Książkę polecam, zabawę też, ale z korzystaniem ze Słowosieci zalecam rozwagę. Rok temu wyciągnąłem z ich strony znaczania polityki:
Następnie, robiąc doktorat, zrobiłem własną analizę o wiele słabszą, niż PolWro (bez skromności, bo nawet takiego kompa nie mam jak oni:)), i opierającą się na innych zasadach. Mając poważną próbkę internetowych tekstów o polityce wyssałem okna korpusowe +-10, zrobiłem sieć współwystępowania słów (wszystkich w oknach) i policzyłem dla nich centralność. Z jej rozkładu wyszło, że poza długim ogonem w liście pozostaje ich niewiele. No to ręcznie je pokategoryzowałem w tematy i wyszło mi co innego:
Najlepsze jest to, że wyszło mi, że polityka to temat taki sami jak sport (ekwiwalentny w sensie:) Potem to już oczywiste historie, no może oprócz tego, że polityka to prawica (sprawdzcie wartości) i struktury partyjne a nie pojedynczy ludzie;) No i polityka to oczywiście rozrywka, a jak? tyle że (ale to internet!) to również posty, blogi, komentarze i długie formy dialogu.
Słowosieć tego nie podała, ale ja interpretowałem ręcznie, a oni mają łeb i duuuuży cluster!