Crawl.pl

By zniwiarz

Pisząc doktorat zacząłem szukać badań dot. struktury sieci polskiej WWW. Jest ich niewiele, lecz te już istniejące są bardzo interesujące. Jak dotąd najciekawsze, na jakie trafiłem są autorstwa Carlosa Castillo, Bartłomiej Starosty, Marcina Sydowa i zostały przeprowadzone w 2005 i 2006 r. na PJWSTK. Uwaga!!! Dane są dostępne.
C. Castillo, B. Starosta, M. Sydow, 2007, Crawl.pl: Measuring Statistical and Structural Properties of the Polish Web, (in:) „Studia Informatica”, no. 1(8), pp. 43-73.

Panowie zrobili kawał świetnej roboty. Korzystając z crawlera Wire, zbadali sieć domen internetowych z końcówką „.pl”. Wychodząc od początkowych domen z Netsprinta (37k linków) przeszukali w odległości 1 wszystkie dobre linki (211k), następnie usunęli z nich spamowe domeny z linkami (farm links) i zostali z 21,622,036 linkami. Jak zatem wygląda polskie WWW? Poniżej przedstawiam wybrane wyniki badań Castillo, Sydowa i Starosty.

Polska domena
Nasze domeny są młode – 77% ma mniej niż rok, 10% jest starsza niż dwa lata, a 2% ma więcej niż 4 lata. Słabo to świadczy o wytrwałości polskich autorów stron. Standardowa strona posiada około 11 linków, głębokość strony to niewiele mniej, niż 2,5. Jest jednak dość duża! Średnio 174 stron, w tym 101 statycznych i 72 dynamiczne. Na uwagę zwracają uwagę zwłaszcza strony statyczne – jedyna moja statyczna strona posiada kilkadziesiąt stron!
Co ciekawe, podstawowe załączniki dokumentowe to .xml (38%), .pdf(36%) i .doc (18%), a potem nie ma długo, długo nic. Wysoka liczba .xml nastraja optymizmem, ten pomocny format jest jednak używany.

Linki – Gdzie najczęściej linkujemy?
Rodzima produkcja linków to oczywiście większość, bo 85%. Oczywiście sporo też do .com (6%) i .org (2%). Reszta to drobnica. Ale do jakich krajów odsyłamy naszych czytelników? (wybór:)
Niemcy (1,21%)
UK (0.25%)
Włochy (0.15%)
Szwajcaria (0,1%)
Belgia 0.09%
Rosja (0.09%)
Holandia (0.09%)
Antigua i Barbuda sic! (0.08%)

Te dane trzeba  oczywiście potraktować z przymróżeniem oka. Mowa jest tutaj tylko o rozszerzeniach URLi, a nie faktycznych językach domen lub adresu IP. Zawsze ciekawe, jednak, dowiedzieć się, że nie mamy linków do Białorusi, prawda?

Struktura linków
No i najciekawsze. Jesteśmy duzi, a zatem nasza sieć jest gęsta. Jest też oczywiście prawo potęgowe (a jakże) (indegree, outdegree, PageRank), no i oczywiście struktura muchy. Poniżej przedstawiał oryginał zrobiony w klasycznym badnaniu Brodera z zespołem (dlatego liczby na obrazku są oryginalne, a nie polskie).

Duży komponent zajmuje 50% naszej sieci, część wychodząca (ślepe strony) to 22%, a część przychodząca (domeny bez linków przychodzących) to 15%.  Kolejna lekcja – zamieszczać dużo linków!

Panowie zrobili również blockmodelling, trzy główne bloki to blog.pl, eblog.pl i mylog.pl. Blogerzy odrobili lekcję i maja blogroll poważnie włączony (a ja?).

W sumie świetne badanie, szkoda tylko, że nie była zastosowana metoda kuli śniegowej. No i czekam na badanie opierające się o adres Ipka… sądzę, że tego typu prac powinno być więcej. Sam mam nadzieję niedługo uzupełnić tę lukę o własne badania z użyciem metod semantycznych. ..

Ktoś zna jeszcze jakieś dobre badania?

Tagi:

Jedna odpowiedź do “Crawl.pl”

  1. Mariusz mówi:

    Te dane trzeba oczywiście potraktować z przymróżeniem oka. Mowa jest tutaj tylko o rozszerzeniach URLi, a nie faktycznych językach domen lub adresu IP. Zawsze ciekawe, jednak, dowiedzieć się, że nie mamy linków do Białorusi, prawda?
    - nie mamy bo samych stron na bialoruskich serwerach jest mało ( stron po białorusku i stron bialoruskich w internecie jest jak na lekarstwo ) . Myślę że fajnie byłoby odnieść te dane do ilości stron w ogóle z daną domeną i procentować do tej właśnie ilości… czy nie?

Dodaj komentarz