Posts Tagged ‘crawling’

Analiza portali społecznościowych

15 września, 2009

W tej całej SNA ludzie lubią szybko zbierać dane. Często wydaje im się, że tak łatwo jest zebrać o kimś dane z portali społecznościowych. Pewnie, jeżeli ktoś szuka konkretnych informacji o stanie zamożności, którym ludzie chwalą się na Naszej Klasie, to może być OK.

Ale nie koniecznie tak jest z analizą sieci społecznych. Wellman powiedział już, że Internet jest przede wszystkim świetny do podtrzymywania słabych sieci społecznych. Może i tylko na ograniczony czas, ale zawsze. OK, ale warunkiem jest, że te nasze słabe więzi społeczne też są na Naszej Klasie… Ok, może są tam, ale nie ma ich wszystkich tam, gdzie spędzamy najbardziej intensywnie nasz czas, czyli na Facebooku (bo NK szybko się nudzi…:). Czyli nie ma tam wszystkich naszych kontaktów (i o tym wiedzą firmy prowadzące portale, które rekomendują znajomych na podstawie analizy linków, ale mojej babci nie ma na Facebooku). Za to są inne, redundantne, bo komuś chciało się dodać nas do znajomych, ale de facto tego kogoś nie znamy.

Czy rzeczywiście te kontakty są fałszywe? Marcin Nagraba podrzucił mi aplikację MyNet, która loguje się na konto Facebook’a i korzystając z api gotuje plik UCINETA. Jak wyglądam?

ja
Centralny komponent jest zorganizowany wokół kont teatrów i innych inicjatyw społecznych (a ja tam raczej co najwyżej bywam na Polach Mokotowskich). Tylko moi znajomi ze szkół letnich są odseparowani (i słusznie). Poza tym mam nieco bardziej heterogeniczne towarzystwo niż te dwie wiązki.

No i drugi przykład. Krzysiek Rządca scrawlawał fragment jednego portalu społecznościowego dla profesjonalistów i wyssał sieci znajomości.
Presentation2

Przypomina mózg, prawda? Wyraźnie widać, że węzły można podzielić na gwiazdy i peryferia. Czy rzeczywiście jesteśmy aż tak spolaryzowani w stosunku liczby znajomych? Chyba nie… (może kiedyś napiszę, jak to wygląda z rekomendacjami, o wiele ciekawiej i realniej;)

wyników doca ciąg dalszy;)

11 września, 2009

Poprzednio pokazałem struturę linków i wielkosc clustrów politycznego WWW. Okazało się, że wszyscy linkują do mediów – jak to powiedział Albert Jawłowski – media są dawcami odniesienia, wszyscy piszą o tym, o czym piszą media (potwierdzenie teorii planu dnia codziennego (agenda setting)). Ale czy wszyscy mówią językiem mediów? Kto jest najbardziej reprezentatywny pod względem języka?

Aby się tego dowiedziec, przedstawiłem wiązki jako wektory tfidf i obliczyłem ich podobieństwo euklidesowe. Oto rysunek sieci, w której długośc połączeń reprezentuje odległosci semantyczne:

sem_dist

tu widac, że większosc jest homogeniczna, za wyjątkiem nowych mediów, finansów i historii. Ale kto jest w środku jajka? Aby to sprawdzic, dla każdej wiązki obliczyłem sumy odległości od wszystkich pozostałych i zrobiłem taki śmieszny rysunek, gdzie na dole są ci z najmniejszymi sumami odległości, a na górze ci z największymi.

sem_dist2

Okazuje się, że najbardziej reprezentatywne słownictwo cechuje wiązki ideologiczne i centralną blogosferę, która, per analogiam, jest równie mocno zideologizowana:) blogerzy, w was cała nadzieja!:)

Makro struktura linków politycznego internetu

9 września, 2009

Przedstawiam centralny graf mojego doktoratu, czyli makro strukturę sieci linków łączących polskie strony WWW poświęcone tematyce politycznej. Gdzie publikowac wyniki doktoratu, jak nie tu….

Badanie był przeprowadzone na przełomie 2008 i 2009 roku, dane zostały zebrane przy pomocy opracowanej przeze mnie metody semantycznej kuli śniegowej. Jest to crawling semantyczny wyruszający od domen startowych (w tym wypadku stron partii politycznych) i szukający  domen zawierających słownictwo naukowo-polityczne. Następnie domeny zostały sklastrowane algorytmem Michele Girvan i Marka Newmana. Oto wyniki dla clustrów:

Osią dyskursu politycznego są jednostki i media. W Internecie najwięcej jest głosów jednostkowych; to jednostki umieszczają najwięcej linków wychodzących, dzięki czemu łatwo jest przejść od stron jednostek do innych domen należących do dyskursu politycznego, przez co zapewniają integralność dyskursu politycznego w Internecie. Jednostki te są rozsiane po wszystkich wiązkach domen politycznych.

siec_klastrow1

Największą widocznością cieszą się media – kontrowersyjna „Gazeta Wyborcza” i większość pozostałych mediów profesjonalnych. O kluczowej pozycji tych głosów świadczy również fakt, że stanowią one wiązki gęsto połączonych domen, wyodrębnionych z całej sieci.

Struktura ta do pewnego stopnia odzwierciedla przestrzeń wejść systemu politycznego Davida Eastona – agregacja i artykulacja interesów politycznych rozpoczyna się wśród pojedynczych ludzi. Klasyczny model Eastona, jak również jego rozwinięcie autorstwa Gabriela Almonda, nie uwzględniają, jednakże, faktu, że proces formowania artykulacji interesów opiera się na mediach. W systemowych teoriach politycznych jednostki odnoszą się do decyzji centralnego systemu politycznego, czyli przestrzeni wejść, w których działają organizacje narzucające polityczne decyzje reszcie społeczeństwa.

Moje badanie pokazuje, że jednostki odnoszą się, przede wszystkim, do mediów – podstawowego źródła informacji o działaniach centrum systemu politycznego. Media (zgodnie z teoriami komunikacji politycznej) pośredniczą w przekazywaniu informacji od rządzących do rządzonych. Centralne organizacje polityczne posiadają natomiast o wiele mniejszą reprezentację w Internecie niż media lub jednostki. W tej perspektywie Internet dominuje w przestrzeni wejść systemu politycznego, a nie stanowi nowego pomostu pomiędzy rządzącymi i rządzonymi, będącego jednym z postulatów elektronicznej demokracji i społeczeństwa informacyjnego.

Pomimo widoczności wybranych domen centralnych organizacji politycznych (zwłaszcza domen: Sejmu RP, Ministerstwa Nauki i Szkolnictwa Wyższego i Ministerstwa Pracy i Polityki Społecznej), próby bezpośredniej komunikacji pomiędzy rządzącymi i rządzonymi wychodzą częściej od rządzonych (np. domena Petycje.pl).

Ponieważ zatem to jednostki, z jednej strony, zapewniają integralność dyskursu, a z drugiej, nawiązują próby tworzenia nowych kanałów komunikacyjnych, można uznać, że realizują one ideę społeczeństwa obywatelskiego w Internecie, podczas gdy polityczne centrum rzadziej wychodzi z inicjatywą odnoszenia się do rządzonych (co dotyczy zwłaszcza partii politycznych).