Archiwum kategorii ‘badania’

analiza banków przy pomocy semantycznej kuli śniegowej;)

listopad 3, 2009

to zrobiliśmy w Wyszukali dzięki naszym technologiom: analiza banków w Internecie

European Social Survey

wrzesień 24, 2009

Właśnie ESS wypuścił surowe dane i raport z badań europejskich. Jest też Polska. Dajecie na: http://ess.nsd.uib.no/. Dane są oczywiście z poprzedniego roku. Ale za chwilę będzie Diagnoza Społeczna (dane som, ale som tajne:)) (jak co to Dominik Batorski wypuszcza częsc interpretacji na polska20.pl.

Dyskurs polityczny – prezentacja z doktoratu

wrzesień 19, 2009

Poniżej umieszczam link do prezentacji z mojego doktoratu – to pierwsze jej upublicznienie, parę osób już ją widziało, ale niech każdy, kto chce, to ogląda. To wersja skrócona, bez opisu wiązek.
View more presentations from Albert.Hupa.

Znaczenie znaczenia II

wrzesień 19, 2009

(a propos ostatniego wpisu) To ciekawe, dzisiaj znowu wyciągnąłem znaczenie polityki ze słowosieci:

polityka_new

bardzo ciekawe, jak bardzo się to zmieniło… czyżby dodanie nowych treści do korpusu aż tak wpłynęło na znaczenie polityki?

Ahh, i jeszcze jedno, autorzy Słowosieci koniecznie powinni umieścic API na swoich stronach (jeśli tak, to ja będę poważnie obciążał ich łącze:))

Znaczenie znaczenia

wrzesień 18, 2009

W środę pojawiła się długo oczekiwana przeze mnie publikacja -podręcznik/opis/książka kucharska Słowosieci, polskiej edycji Wordnetu.  Można ją ściągnąć z:

http://www.plwordnet.pwr.wroc.pl/main/content/files/publications/A_Wordnet_from_the_Ground_Up.zip

To wrocławskie przedsięwzięcie jest ze wszech miar fenomenalne – biorąc pod uwagę problematyczność, jaką sprawia język polski.

(więcej…)

Wektorowa mapa polski

wrzesień 18, 2009

Niby miałem pisac o sieciach społecznych i internecie, ale obecnie w pracy muszę rozprawic się ze statystyką geograficzną i produkowac mapy polski z różnymi wskaźnikami. Strasznie długo szukałem darmowej mapy wektorowej polski i oczywiście nie mogłem znalexc. Wszyscy mówili – zapłac. A ja jestem z UW i oczywiście nie mam pieniędzy;)

Ale znalazłem darmowe mapy Polski, które łatwo dają się wklejac do R – to projekt DIVA GIS z własnym programem, którym również można się fajnie bawic. Polecam! Polska jest bardzo ładnie zrobiona.

mapa

Makro struktura linków politycznego internetu

wrzesień 9, 2009

Przedstawiam centralny graf mojego doktoratu, czyli makro strukturę sieci linków łączących polskie strony WWW poświęcone tematyce politycznej. Gdzie publikowac wyniki doktoratu, jak nie tu….

Badanie był przeprowadzone na przełomie 2008 i 2009 roku, dane zostały zebrane przy pomocy opracowanej przeze mnie metody semantycznej kuli śniegowej. Jest to crawling semantyczny wyruszający od domen startowych (w tym wypadku stron partii politycznych) i szukający  domen zawierających słownictwo naukowo-polityczne. Następnie domeny zostały sklastrowane algorytmem Michele Girvan i Marka Newmana. Oto wyniki dla clustrów:

Osią dyskursu politycznego są jednostki i media. W Internecie najwięcej jest głosów jednostkowych; to jednostki umieszczają najwięcej linków wychodzących, dzięki czemu łatwo jest przejść od stron jednostek do innych domen należących do dyskursu politycznego, przez co zapewniają integralność dyskursu politycznego w Internecie. Jednostki te są rozsiane po wszystkich wiązkach domen politycznych.

siec_klastrow1

Największą widocznością cieszą się media – kontrowersyjna „Gazeta Wyborcza” i większość pozostałych mediów profesjonalnych. O kluczowej pozycji tych głosów świadczy również fakt, że stanowią one wiązki gęsto połączonych domen, wyodrębnionych z całej sieci.

Struktura ta do pewnego stopnia odzwierciedla przestrzeń wejść systemu politycznego Davida Eastona – agregacja i artykulacja interesów politycznych rozpoczyna się wśród pojedynczych ludzi. Klasyczny model Eastona, jak również jego rozwinięcie autorstwa Gabriela Almonda, nie uwzględniają, jednakże, faktu, że proces formowania artykulacji interesów opiera się na mediach. W systemowych teoriach politycznych jednostki odnoszą się do decyzji centralnego systemu politycznego, czyli przestrzeni wejść, w których działają organizacje narzucające polityczne decyzje reszcie społeczeństwa.

Moje badanie pokazuje, że jednostki odnoszą się, przede wszystkim, do mediów – podstawowego źródła informacji o działaniach centrum systemu politycznego. Media (zgodnie z teoriami komunikacji politycznej) pośredniczą w przekazywaniu informacji od rządzących do rządzonych. Centralne organizacje polityczne posiadają natomiast o wiele mniejszą reprezentację w Internecie niż media lub jednostki. W tej perspektywie Internet dominuje w przestrzeni wejść systemu politycznego, a nie stanowi nowego pomostu pomiędzy rządzącymi i rządzonymi, będącego jednym z postulatów elektronicznej demokracji i społeczeństwa informacyjnego.

Pomimo widoczności wybranych domen centralnych organizacji politycznych (zwłaszcza domen: Sejmu RP, Ministerstwa Nauki i Szkolnictwa Wyższego i Ministerstwa Pracy i Polityki Społecznej), próby bezpośredniej komunikacji pomiędzy rządzącymi i rządzonymi wychodzą częściej od rządzonych (np. domena Petycje.pl).

Ponieważ zatem to jednostki, z jednej strony, zapewniają integralność dyskursu, a z drugiej, nawiązują próby tworzenia nowych kanałów komunikacyjnych, można uznać, że realizują one ideę społeczeństwa obywatelskiego w Internecie, podczas gdy polityczne centrum rzadziej wychodzi z inicjatywą odnoszenia się do rządzonych (co dotyczy zwłaszcza partii politycznych).

Crawl.pl

październik 4, 2008

Pisząc doktorat zacząłem szukać badań dot. struktury sieci polskiej WWW. Jest ich niewiele, lecz te już istniejące są bardzo interesujące. Jak dotąd najciekawsze, na jakie trafiłem są autorstwa Carlosa Castillo, Bartłomiej Starosty, Marcina Sydowa i zostały przeprowadzone w 2005 i 2006 r. na PJWSTK. Uwaga!!! Dane są dostępne.
C. Castillo, B. Starosta, M. Sydow, 2007, Crawl.pl: Measuring Statistical and Structural Properties of the Polish Web, (in:) „Studia Informatica”, no. 1(8), pp. 43-73.

Panowie zrobili kawał świetnej roboty. Korzystając z crawlera Wire, zbadali sieć domen internetowych z końcówką „.pl”. Wychodząc od początkowych domen z Netsprinta (37k linków) przeszukali w odległości 1 wszystkie dobre linki (211k), następnie usunęli z nich spamowe domeny z linkami (farm links) i zostali z 21,622,036 linkami. Jak zatem wygląda polskie WWW? Poniżej przedstawiam wybrane wyniki badań Castillo, Sydowa i Starosty.

Polska domena
Nasze domeny są młode – 77% ma mniej niż rok, 10% jest starsza niż dwa lata, a 2% ma więcej niż 4 lata. Słabo to świadczy o wytrwałości polskich autorów stron. Standardowa strona posiada około 11 linków, głębokość strony to niewiele mniej, niż 2,5. Jest jednak dość duża! Średnio 174 stron, w tym 101 statycznych i 72 dynamiczne. Na uwagę zwracają uwagę zwłaszcza strony statyczne – jedyna moja statyczna strona posiada kilkadziesiąt stron!
Co ciekawe, podstawowe załączniki dokumentowe to .xml (38%), .pdf(36%) i .doc (18%), a potem nie ma długo, długo nic. Wysoka liczba .xml nastraja optymizmem, ten pomocny format jest jednak używany.

Linki – Gdzie najczęściej linkujemy?
Rodzima produkcja linków to oczywiście większość, bo 85%. Oczywiście sporo też do .com (6%) i .org (2%). Reszta to drobnica. Ale do jakich krajów odsyłamy naszych czytelników? (wybór:)
Niemcy (1,21%)
UK (0.25%)
Włochy (0.15%)
Szwajcaria (0,1%)
Belgia 0.09%
Rosja (0.09%)
Holandia (0.09%)
Antigua i Barbuda sic! (0.08%)

Te dane trzeba  oczywiście potraktować z przymróżeniem oka. Mowa jest tutaj tylko o rozszerzeniach URLi, a nie faktycznych językach domen lub adresu IP. Zawsze ciekawe, jednak, dowiedzieć się, że nie mamy linków do Białorusi, prawda?

Struktura linków
No i najciekawsze. Jesteśmy duzi, a zatem nasza sieć jest gęsta. Jest też oczywiście prawo potęgowe (a jakże) (indegree, outdegree, PageRank), no i oczywiście struktura muchy. Poniżej przedstawiał oryginał zrobiony w klasycznym badnaniu Brodera z zespołem (dlatego liczby na obrazku są oryginalne, a nie polskie).

Duży komponent zajmuje 50% naszej sieci, część wychodząca (ślepe strony) to 22%, a część przychodząca (domeny bez linków przychodzących) to 15%.  Kolejna lekcja – zamieszczać dużo linków!

Panowie zrobili również blockmodelling, trzy główne bloki to blog.pl, eblog.pl i mylog.pl. Blogerzy odrobili lekcję i maja blogroll poważnie włączony (a ja?).

W sumie świetne badanie, szkoda tylko, że nie była zastosowana metoda kuli śniegowej. No i czekam na badanie opierające się o adres Ipka… sądzę, że tego typu prac powinno być więcej. Sam mam nadzieję niedługo uzupełnić tę lukę o własne badania z użyciem metod semantycznych. ..

Ktoś zna jeszcze jakieś dobre badania?