Archiwum kategorii ‘SNA’

Dyskurs polityczny – prezentacja z doktoratu

wrzesień 19, 2009

Poniżej umieszczam link do prezentacji z mojego doktoratu – to pierwsze jej upublicznienie, parę osób już ją widziało, ale niech każdy, kto chce, to ogląda. To wersja skrócona, bez opisu wiązek.
View more presentations from Albert.Hupa.

Analiza portali społecznościowych

wrzesień 15, 2009

W tej całej SNA ludzie lubią szybko zbierać dane. Często wydaje im się, że tak łatwo jest zebrać o kimś dane z portali społecznościowych. Pewnie, jeżeli ktoś szuka konkretnych informacji o stanie zamożności, którym ludzie chwalą się na Naszej Klasie, to może być OK.

Ale nie koniecznie tak jest z analizą sieci społecznych. Wellman powiedział już, że Internet jest przede wszystkim świetny do podtrzymywania słabych sieci społecznych. Może i tylko na ograniczony czas, ale zawsze. OK, ale warunkiem jest, że te nasze słabe więzi społeczne też są na Naszej Klasie… Ok, może są tam, ale nie ma ich wszystkich tam, gdzie spędzamy najbardziej intensywnie nasz czas, czyli na Facebooku (bo NK szybko się nudzi…:). Czyli nie ma tam wszystkich naszych kontaktów (i o tym wiedzą firmy prowadzące portale, które rekomendują znajomych na podstawie analizy linków, ale mojej babci nie ma na Facebooku). Za to są inne, redundantne, bo komuś chciało się dodać nas do znajomych, ale de facto tego kogoś nie znamy.

Czy rzeczywiście te kontakty są fałszywe? Marcin Nagraba podrzucił mi aplikację MyNet, która loguje się na konto Facebook’a i korzystając z api gotuje plik UCINETA. Jak wyglądam?

ja
Centralny komponent jest zorganizowany wokół kont teatrów i innych inicjatyw społecznych (a ja tam raczej co najwyżej bywam na Polach Mokotowskich). Tylko moi znajomi ze szkół letnich są odseparowani (i słusznie). Poza tym mam nieco bardziej heterogeniczne towarzystwo niż te dwie wiązki.

No i drugi przykład. Krzysiek Rządca scrawlawał fragment jednego portalu społecznościowego dla profesjonalistów i wyssał sieci znajomości.
Presentation2

Przypomina mózg, prawda? Wyraźnie widać, że węzły można podzielić na gwiazdy i peryferia. Czy rzeczywiście jesteśmy aż tak spolaryzowani w stosunku liczby znajomych? Chyba nie… (może kiedyś napiszę, jak to wygląda z rekomendacjami, o wiele ciekawiej i realniej;)

wyników doca ciąg dalszy;)

wrzesień 11, 2009

Poprzednio pokazałem struturę linków i wielkosc clustrów politycznego WWW. Okazało się, że wszyscy linkują do mediów – jak to powiedział Albert Jawłowski – media są dawcami odniesienia, wszyscy piszą o tym, o czym piszą media (potwierdzenie teorii planu dnia codziennego (agenda setting)). Ale czy wszyscy mówią językiem mediów? Kto jest najbardziej reprezentatywny pod względem języka?

Aby się tego dowiedziec, przedstawiłem wiązki jako wektory tfidf i obliczyłem ich podobieństwo euklidesowe. Oto rysunek sieci, w której długośc połączeń reprezentuje odległosci semantyczne:

sem_dist

tu widac, że większosc jest homogeniczna, za wyjątkiem nowych mediów, finansów i historii. Ale kto jest w środku jajka? Aby to sprawdzic, dla każdej wiązki obliczyłem sumy odległości od wszystkich pozostałych i zrobiłem taki śmieszny rysunek, gdzie na dole są ci z najmniejszymi sumami odległości, a na górze ci z największymi.

sem_dist2

Okazuje się, że najbardziej reprezentatywne słownictwo cechuje wiązki ideologiczne i centralną blogosferę, która, per analogiam, jest równie mocno zideologizowana:) blogerzy, w was cała nadzieja!:)

Makro struktura linków politycznego internetu

wrzesień 9, 2009

Przedstawiam centralny graf mojego doktoratu, czyli makro strukturę sieci linków łączących polskie strony WWW poświęcone tematyce politycznej. Gdzie publikowac wyniki doktoratu, jak nie tu….

Badanie był przeprowadzone na przełomie 2008 i 2009 roku, dane zostały zebrane przy pomocy opracowanej przeze mnie metody semantycznej kuli śniegowej. Jest to crawling semantyczny wyruszający od domen startowych (w tym wypadku stron partii politycznych) i szukający  domen zawierających słownictwo naukowo-polityczne. Następnie domeny zostały sklastrowane algorytmem Michele Girvan i Marka Newmana. Oto wyniki dla clustrów:

Osią dyskursu politycznego są jednostki i media. W Internecie najwięcej jest głosów jednostkowych; to jednostki umieszczają najwięcej linków wychodzących, dzięki czemu łatwo jest przejść od stron jednostek do innych domen należących do dyskursu politycznego, przez co zapewniają integralność dyskursu politycznego w Internecie. Jednostki te są rozsiane po wszystkich wiązkach domen politycznych.

siec_klastrow1

Największą widocznością cieszą się media – kontrowersyjna „Gazeta Wyborcza” i większość pozostałych mediów profesjonalnych. O kluczowej pozycji tych głosów świadczy również fakt, że stanowią one wiązki gęsto połączonych domen, wyodrębnionych z całej sieci.

Struktura ta do pewnego stopnia odzwierciedla przestrzeń wejść systemu politycznego Davida Eastona – agregacja i artykulacja interesów politycznych rozpoczyna się wśród pojedynczych ludzi. Klasyczny model Eastona, jak również jego rozwinięcie autorstwa Gabriela Almonda, nie uwzględniają, jednakże, faktu, że proces formowania artykulacji interesów opiera się na mediach. W systemowych teoriach politycznych jednostki odnoszą się do decyzji centralnego systemu politycznego, czyli przestrzeni wejść, w których działają organizacje narzucające polityczne decyzje reszcie społeczeństwa.

Moje badanie pokazuje, że jednostki odnoszą się, przede wszystkim, do mediów – podstawowego źródła informacji o działaniach centrum systemu politycznego. Media (zgodnie z teoriami komunikacji politycznej) pośredniczą w przekazywaniu informacji od rządzących do rządzonych. Centralne organizacje polityczne posiadają natomiast o wiele mniejszą reprezentację w Internecie niż media lub jednostki. W tej perspektywie Internet dominuje w przestrzeni wejść systemu politycznego, a nie stanowi nowego pomostu pomiędzy rządzącymi i rządzonymi, będącego jednym z postulatów elektronicznej demokracji i społeczeństwa informacyjnego.

Pomimo widoczności wybranych domen centralnych organizacji politycznych (zwłaszcza domen: Sejmu RP, Ministerstwa Nauki i Szkolnictwa Wyższego i Ministerstwa Pracy i Polityki Społecznej), próby bezpośredniej komunikacji pomiędzy rządzącymi i rządzonymi wychodzą częściej od rządzonych (np. domena Petycje.pl).

Ponieważ zatem to jednostki, z jednej strony, zapewniają integralność dyskursu, a z drugiej, nawiązują próby tworzenia nowych kanałów komunikacyjnych, można uznać, że realizują one ideę społeczeństwa obywatelskiego w Internecie, podczas gdy polityczne centrum rzadziej wychodzi z inicjatywą odnoszenia się do rządzonych (co dotyczy zwłaszcza partii politycznych).

pośredniczenie krawędzi

wrzesień 8, 2009

Jak ładnie zwizualizowac pośredniczenie krawędzi w igraphie w R dla pliku my.mat – czystej macierzy

raw.data<-read.table(“my.mat”,header=FALSE, sep=” “)
mat<-as.matrix(raw.data)
library(igraph)

edgelist<-data.frame(od=0,do=0,ile=0)
e.count=0;
for(i in 1:dim(mat)[1]){
for(j in 1:dim(mat)[2]){
if(mat[i,j]>0){
e.count<-(e.count+1);
edgelist[e.count,1]<-i;
edgelist[e.count,2]<-j;
edgelist[e.count,3]<-mat[i,j];
}
}
}

my.net<-graph.data.frame(edgelist, directed=TRUE, vertices=NULL)
posr<-edge.betweenness(my.net)

E(my.net)$edgb<-posr
E(my.net)$color<-”grey”
E(my.net)$width<-posr/100
E(my.net)[edgb > 1000]$color<-”red”
tkplot(my.net)
coords<-layout.kamada.kawai(my.net,dim=3)
rglplot(my.net,layout=coords)

efekt:

pol_edge_bet_3d

Crawl.pl

październik 4, 2008

Pisząc doktorat zacząłem szukać badań dot. struktury sieci polskiej WWW. Jest ich niewiele, lecz te już istniejące są bardzo interesujące. Jak dotąd najciekawsze, na jakie trafiłem są autorstwa Carlosa Castillo, Bartłomiej Starosty, Marcina Sydowa i zostały przeprowadzone w 2005 i 2006 r. na PJWSTK. Uwaga!!! Dane są dostępne.
C. Castillo, B. Starosta, M. Sydow, 2007, Crawl.pl: Measuring Statistical and Structural Properties of the Polish Web, (in:) „Studia Informatica”, no. 1(8), pp. 43-73.

Panowie zrobili kawał świetnej roboty. Korzystając z crawlera Wire, zbadali sieć domen internetowych z końcówką „.pl”. Wychodząc od początkowych domen z Netsprinta (37k linków) przeszukali w odległości 1 wszystkie dobre linki (211k), następnie usunęli z nich spamowe domeny z linkami (farm links) i zostali z 21,622,036 linkami. Jak zatem wygląda polskie WWW? Poniżej przedstawiam wybrane wyniki badań Castillo, Sydowa i Starosty.

Polska domena
Nasze domeny są młode – 77% ma mniej niż rok, 10% jest starsza niż dwa lata, a 2% ma więcej niż 4 lata. Słabo to świadczy o wytrwałości polskich autorów stron. Standardowa strona posiada około 11 linków, głębokość strony to niewiele mniej, niż 2,5. Jest jednak dość duża! Średnio 174 stron, w tym 101 statycznych i 72 dynamiczne. Na uwagę zwracają uwagę zwłaszcza strony statyczne – jedyna moja statyczna strona posiada kilkadziesiąt stron!
Co ciekawe, podstawowe załączniki dokumentowe to .xml (38%), .pdf(36%) i .doc (18%), a potem nie ma długo, długo nic. Wysoka liczba .xml nastraja optymizmem, ten pomocny format jest jednak używany.

Linki – Gdzie najczęściej linkujemy?
Rodzima produkcja linków to oczywiście większość, bo 85%. Oczywiście sporo też do .com (6%) i .org (2%). Reszta to drobnica. Ale do jakich krajów odsyłamy naszych czytelników? (wybór:)
Niemcy (1,21%)
UK (0.25%)
Włochy (0.15%)
Szwajcaria (0,1%)
Belgia 0.09%
Rosja (0.09%)
Holandia (0.09%)
Antigua i Barbuda sic! (0.08%)

Te dane trzeba  oczywiście potraktować z przymróżeniem oka. Mowa jest tutaj tylko o rozszerzeniach URLi, a nie faktycznych językach domen lub adresu IP. Zawsze ciekawe, jednak, dowiedzieć się, że nie mamy linków do Białorusi, prawda?

Struktura linków
No i najciekawsze. Jesteśmy duzi, a zatem nasza sieć jest gęsta. Jest też oczywiście prawo potęgowe (a jakże) (indegree, outdegree, PageRank), no i oczywiście struktura muchy. Poniżej przedstawiał oryginał zrobiony w klasycznym badnaniu Brodera z zespołem (dlatego liczby na obrazku są oryginalne, a nie polskie).

Duży komponent zajmuje 50% naszej sieci, część wychodząca (ślepe strony) to 22%, a część przychodząca (domeny bez linków przychodzących) to 15%.  Kolejna lekcja – zamieszczać dużo linków!

Panowie zrobili również blockmodelling, trzy główne bloki to blog.pl, eblog.pl i mylog.pl. Blogerzy odrobili lekcję i maja blogroll poważnie włączony (a ja?).

W sumie świetne badanie, szkoda tylko, że nie była zastosowana metoda kuli śniegowej. No i czekam na badanie opierające się o adres Ipka… sądzę, że tego typu prac powinno być więcej. Sam mam nadzieję niedługo uzupełnić tę lukę o własne badania z użyciem metod semantycznych. ..

Ktoś zna jeszcze jakieś dobre badania?

Darwin w Essex

wrzesień 28, 2008

Udało mi się w tym roku wziąć udział w szkole letniej Essex Summer School in Social Science Data Analysis and Collection, gdzie odbyłem m.in. kurs Advanced Social Network Analysis. Pojechałem za własne pieniądze (ISNS nie uznał za stosowne wspomóc mnie w tym przedsięwzięciu), ale zdecydowanie opłacało się. Nie dość, że poznałem mnóstwo doktorantów, którzy zajmują się sieciami społecznymi, nauczyłem się testowania hipotez statystycznych ma sieciach, to jeszcze miałem okazję porównać poziom nauki tu i tam.

Essex oferuje mnóstwo kursów dot. nauk społecznych, przede wszystkim – opartych na analizach ilościowych (dużo regresji logistycznej, z której słynie ten uniwersytet), w tym i sieci społecznych. Nasz kurs prowadzili prof. John Skvortez (współpracował m.in. z Jackiem Szmatką, a jego współpracowniczka Maria Osa zajmowała się sieciami polskich organizacji opozycyjnych) i Philip Agnessens, zajmujący się socjologią organizacji i hipotezami statystycznymi. Uczestnikami kursu byli doktoranci z całej Europy, zajmujący się elitami politycznymi, organizacjami, dyfuzją nauki, epidemii, ale i sieciami społecznymi szympansów (moimi ulubionymi zestawami danych były liżące się krowy i wyjątkowo egoistyczne wróble:).

Poziom był zróżnicowany i, co ciekawe, po raz kolejny potwierdziło się, że SNA jest w mniejszości. Większość zgadzała się, że ma status freaków na swoich uniwersytetach, chociaż nie są oni aż tak marginalizowani, jak ma to miejsce w Polsce (cytat z prof. Woronieckiej: „A gdzie tu jest socjologia?”). Z drugiej strony, było parę osób, którym szefowie „kazali” wyjechać, więc bardzo im się to wszystko nie podobało (czyli SNA trochę się instytucjonalizuje).

Dobre jest to, że nie jesteśmy w epoce kamienia łupanego, wiedziałem bowiem o paru rzeczach, o których oni nie wiedzieli, a Luhmanna to musiałem niektórym osobom tłumaczyć:). Komputery w Essex również nie były za szybkie (niech żyje Putty :) , chociaż generalnie rzecz biorąc, to odwiedzałem inny świat. Tam wszystko jest dla studenta, który ma jeden obowiązek: badać, badać, badać… Infrastruktura i administracja są wprost wymarzone dla badaczy, którzy o nic nie muszą walczyć (i mają prostsze wymogi dot. doktoratów:), więc u nas, siłą rzeczy, przetrwać mogą jedynie wytrwali. Tyle tylko, że u nich najlepiej dostosowane osobniki to takie, które umieją dobrze badać we wspieranych gałęziach wiedzy, podczas gdy u nas są to osobniki reprodukujące istniejące struktury społeczne. W tym sensie gry ewolucji naukowej są ustalane przez inne czynniki: tam zewnętrzne, związane z biznesem i społeczeństwem, a u nas nie wychodzące poza naukowy habitat. I jak tu wchodzić do tej samej gry?