Poprzednio pokazałem struturę linków i wielkosc clustrów politycznego WWW. Okazało się, że wszyscy linkują do mediów – jak to powiedział Albert Jawłowski – media są dawcami odniesienia, wszyscy piszą o tym, o czym piszą media (potwierdzenie teorii planu dnia codziennego (agenda setting)). Ale czy wszyscy mówią językiem mediów? Kto jest najbardziej reprezentatywny pod względem języka?
Aby się tego dowiedziec, przedstawiłem wiązki jako wektory tfidf i obliczyłem ich podobieństwo euklidesowe. Oto rysunek sieci, w której długośc połączeń reprezentuje odległosci semantyczne:

tu widac, że większosc jest homogeniczna, za wyjątkiem nowych mediów, finansów i historii. Ale kto jest w środku jajka? Aby to sprawdzic, dla każdej wiązki obliczyłem sumy odległości od wszystkich pozostałych i zrobiłem taki śmieszny rysunek, gdzie na dole są ci z najmniejszymi sumami odległości, a na górze ci z największymi.

Okazuje się, że najbardziej reprezentatywne słownictwo cechuje wiązki ideologiczne i centralną blogosferę, która, per analogiam, jest równie mocno zideologizowana:) blogerzy, w was cała nadzieja!:)