Crawl.pl

październik 4, 2008 by zniwiarz

Pisząc doktorat zacząłem szukać badań dot. struktury sieci polskiej WWW. Jest ich niewiele, lecz te już istniejące są bardzo interesujące. Jak dotąd najciekawsze, na jakie trafiłem są autorstwa Carlosa Castillo, Bartłomiej Starosty, Marcina Sydowa i zostały przeprowadzone w 2005 i 2006 r. na PJWSTK. Uwaga!!! Dane są dostępne.
C. Castillo, B. Starosta, M. Sydow, 2007, Crawl.pl: Measuring Statistical and Structural Properties of the Polish Web, (in:) „Studia Informatica”, no. 1(8), pp. 43-73.

Panowie zrobili kawał świetnej roboty. Korzystając z crawlera Wire, zbadali sieć domen internetowych z końcówką „.pl”. Wychodząc od początkowych domen z Netsprinta (37k linków) przeszukali w odległości 1 wszystkie dobre linki (211k), następnie usunęli z nich spamowe domeny z linkami (farm links) i zostali z 21,622,036 linkami. Jak zatem wygląda polskie WWW? Poniżej przedstawiam wybrane wyniki badań Castillo, Sydowa i Starosty.

Polska domena
Nasze domeny są młode – 77% ma mniej niż rok, 10% jest starsza niż dwa lata, a 2% ma więcej niż 4 lata. Słabo to świadczy o wytrwałości polskich autorów stron. Standardowa strona posiada około 11 linków, głębokość strony to niewiele mniej, niż 2,5. Jest jednak dość duża! Średnio 174 stron, w tym 101 statycznych i 72 dynamiczne. Na uwagę zwracają uwagę zwłaszcza strony statyczne – jedyna moja statyczna strona posiada kilkadziesiąt stron!
Co ciekawe, podstawowe załączniki dokumentowe to .xml (38%), .pdf(36%) i .doc (18%), a potem nie ma długo, długo nic. Wysoka liczba .xml nastraja optymizmem, ten pomocny format jest jednak używany.

Linki – Gdzie najczęściej linkujemy?
Rodzima produkcja linków to oczywiście większość, bo 85%. Oczywiście sporo też do .com (6%) i .org (2%). Reszta to drobnica. Ale do jakich krajów odsyłamy naszych czytelników? (wybór:)
Niemcy (1,21%)
UK (0.25%)
Włochy (0.15%)
Szwajcaria (0,1%)
Belgia 0.09%
Rosja (0.09%)
Holandia (0.09%)
Antigua i Barbuda sic! (0.08%)

Te dane trzeba  oczywiście potraktować z przymróżeniem oka. Mowa jest tutaj tylko o rozszerzeniach URLi, a nie faktycznych językach domen lub adresu IP. Zawsze ciekawe, jednak, dowiedzieć się, że nie mamy linków do Białorusi, prawda?

Struktura linków
No i najciekawsze. Jesteśmy duzi, a zatem nasza sieć jest gęsta. Jest też oczywiście prawo potęgowe (a jakże) (indegree, outdegree, PageRank), no i oczywiście struktura muchy. Poniżej przedstawiał oryginał zrobiony w klasycznym badnaniu Brodera z zespołem (dlatego liczby na obrazku są oryginalne, a nie polskie).

Duży komponent zajmuje 50% naszej sieci, część wychodząca (ślepe strony) to 22%, a część przychodząca (domeny bez linków przychodzących) to 15%.  Kolejna lekcja – zamieszczać dużo linków!

Panowie zrobili również blockmodelling, trzy główne bloki to blog.pl, eblog.pl i mylog.pl. Blogerzy odrobili lekcję i maja blogroll poważnie włączony (a ja?).

W sumie świetne badanie, szkoda tylko, że nie była zastosowana metoda kuli śniegowej. No i czekam na badanie opierające się o adres Ipka… sądzę, że tego typu prac powinno być więcej. Sam mam nadzieję niedługo uzupełnić tę lukę o własne badania z użyciem metod semantycznych. ..

Ktoś zna jeszcze jakieś dobre badania?

Darwin w Essex

wrzesień 28, 2008 by zniwiarz

Udało mi się w tym roku wziąć udział w szkole letniej Essex Summer School in Social Science Data Analysis and Collection, gdzie odbyłem m.in. kurs Advanced Social Network Analysis. Pojechałem za własne pieniądze (ISNS nie uznał za stosowne wspomóc mnie w tym przedsięwzięciu), ale zdecydowanie opłacało się. Nie dość, że poznałem mnóstwo doktorantów, którzy zajmują się sieciami społecznymi, nauczyłem się testowania hipotez statystycznych ma sieciach, to jeszcze miałem okazję porównać poziom nauki tu i tam.

Essex oferuje mnóstwo kursów dot. nauk społecznych, przede wszystkim – opartych na analizach ilościowych (dużo regresji logistycznej, z której słynie ten uniwersytet), w tym i sieci społecznych. Nasz kurs prowadzili prof. John Skvortez (współpracował m.in. z Jackiem Szmatką, a jego współpracowniczka Maria Osa zajmowała się sieciami polskich organizacji opozycyjnych) i Philip Agnessens, zajmujący się socjologią organizacji i hipotezami statystycznymi. Uczestnikami kursu byli doktoranci z całej Europy, zajmujący się elitami politycznymi, organizacjami, dyfuzją nauki, epidemii, ale i sieciami społecznymi szympansów (moimi ulubionymi zestawami danych były liżące się krowy i wyjątkowo egoistyczne wróble:).

Poziom był zróżnicowany i, co ciekawe, po raz kolejny potwierdziło się, że SNA jest w mniejszości. Większość zgadzała się, że ma status freaków na swoich uniwersytetach, chociaż nie są oni aż tak marginalizowani, jak ma to miejsce w Polsce (cytat z prof. Woronieckiej: „A gdzie tu jest socjologia?”). Z drugiej strony, było parę osób, którym szefowie „kazali” wyjechać, więc bardzo im się to wszystko nie podobało (czyli SNA trochę się instytucjonalizuje).

Dobre jest to, że nie jesteśmy w epoce kamienia łupanego, wiedziałem bowiem o paru rzeczach, o których oni nie wiedzieli, a Luhmanna to musiałem niektórym osobom tłumaczyć:). Komputery w Essex również nie były za szybkie (niech żyje Putty :) , chociaż generalnie rzecz biorąc, to odwiedzałem inny świat. Tam wszystko jest dla studenta, który ma jeden obowiązek: badać, badać, badać… Infrastruktura i administracja są wprost wymarzone dla badaczy, którzy o nic nie muszą walczyć (i mają prostsze wymogi dot. doktoratów:), więc u nas, siłą rzeczy, przetrwać mogą jedynie wytrwali. Tyle tylko, że u nich najlepiej dostosowane osobniki to takie, które umieją dobrze badać we wspieranych gałęziach wiedzy, podczas gdy u nas są to osobniki reprodukujące istniejące struktury społeczne. W tym sensie gry ewolucji naukowej są ustalane przez inne czynniki: tam zewnętrzne, związane z biznesem i społeczeństwem, a u nas nie wychodzące poza naukowy habitat. I jak tu wchodzić do tej samej gry?

Typologia badaczy społecznych

wrzesień 24, 2008 by zniwiarz

Ostatnio udaje mi się przebywać w szerszym gronie badaczy społecznych. Z racji na świeżą debatę na temat stanu polskiej nauki (skomentowaną w innym miejscu) zacząłem się zastanawiać nad tym, co napędza badania młodych polskich socjologów (i nie tylko). Poniżej typologia motywacyjna:

- zróbmy coś ciekawego

to młodzi ludzie, dla których najważniejsza jest kategoria „coś” (o czym pisała moja promotorka w swojej habilitacji). Ważne jest tutaj, żeby zrobić cokolwiek, a potem zastanowić się, co może z tego wyjść. To coś jest zawsze zakotwiczone w ogólnym temacie zainteresowań, lecz niestety niewiele z tego później wynika. W ramach sieci społecznych znam idealny przykład: większość młodych badaczy najpierw zastanawia się, skąd wziąć dane, a potem chce je „eksplorować”. Co dalej? Nie wiadomo.

- złapmy grant

to już trochę starsi (doświadczeniem) badacze, którym nie chce się robić nic za darmo (sam powoli zaczynam się do nich zaliczać). Jeśli ktoś oferuje kasę, to wchodzę w temat, jeżeli tylko jest on w okolicach moich zainteresowań. Problemem jest tutaj źródło kasy: UE, która słabo finansuje badania społeczne nie towarzyszące działaniom (vide: interwencji antropologicznej). Dalej są konkursy, takie jak AGORY, ale żadko można tutaj liczyć na własną kasę. To etap newralgiczny, ponieważ naprawdę duża kasa dawana jest badaczom z dużą liczbą publikacji, więc sporo osób wykłada się w tym miejscu.

- stańmy się jak nasi mistrzowie

jeżeli juz tylko udało się wejść do grona naukowców (cokolwiek by to nie znaczyło), musimy to podkreślić. Z moich doświadczeń opiera się to przede wszystkim na władzy dyskursywnej. Naukowcem stajemy się, ponieważ opanowaliśmy pewien język. Dzięki temu wiemy również, kto naukowcem nie jest – ten, kto nie opanował tego języka

- spadajmy stąd

w pewnym momencie (jeśli ominęliśmy poprzedni etap), dochodzimy do wniosku, że słabo coś w Polsce z badaniami. Co bardziej sprytni wpadają na pomysł, by trzymać się w naszym grajdołku języka mistrzów, lecz publikują za granicą, bo tu i tak przejdzie to nie zauważone. Tylko jak utrzymać lans tutaj?

Oczywiście, i tak do ostatniego etapu przechodzą tylko nieliczni, reszta ląduje w badaniu sprzedaży mydła:D (czekam tam na was)