lap aljára | kommentek | hozzászólás | akadálymentes

Crawleriada: Nyeretlen félévesek
2010.02.02 11:32

Fél éve méricskélem a robotok aktivitását az oldalon, így aztán százezer rekord fölött jár az adatbázis. A trendek nagyjából megegyeznek minden hónapban, csak hol ez, hol az a robot fejt ki nagyobb aktivitást.

Ami erősödött, az a magukat semmilyen formában nem azonosító robotok aktivitása. Például a WP különböző szolgáltatásai (WP-Shots) már nem veszik a fáradtságot. Így van ezzel egyre több web 2.0-ás szolgáltatáshoz tartozó bot.

robotok aktivitása a 2009.07.21 00:00:00 és 2010.01.20 23:59:59 közötti időszakban, a lekérdezések típusa szerint összesítve
robot: találat címlap keresés olvasás rss feed egyéb

google: 29559 393 15423 7736 5201 806

ismeretlen: 17807 590 1687 1902 13326 302

hurricane: 16522 21 10406 5533 30 532

yahoo: 14083 846 11914 982 62 279

yandex: 8280 237 5025 2928 22 68

feedburner: 4833    4833 

baidu: 3198 423 2150 546 16 63

openfind: 871 3 826 22 4 16

alexa: 604  470 120 4 10

askjeeves: 569 107 111 347 1 3

nameproject: 530 54 171 256 10 39

goliat(hu): 421 3 7 409  2

soso: 413 413    

msn: 337 98 119 109 5 6

metadatalabs: 310 52 190 66 1 1

butterfly: 274 1 10 261  2

sogou: 234 234    

bitly: 218 1 1 214  2

postrank: 188 2 3 183  

wp-mshots: 110 12 4 94  

pycurl: 87  4 83  

simplepie: 77    69 8

ooz: 72 42  5 18 7

snap: 63 10   33 20

panscient: 55 5 18 25  7

twitturly: 51 1 1 47  2

trendmicro: 40 40    

majestic12: 37 13 1 10  13

webalta: 36 2  24 2 8

surveybot: 35 35    

followsite: 31 31    

netcraft: 29 29    

amazonaws: 22   20  2

naver: 16 15  1  

seexie: 15 15    

exalead: 14 14    

rdfbot: 12 12    

twingly: 10   10  

friendfeed: 10   10  

feedhub: 4   4  

cfnetwork: 3   2 1 

yacybot: 3 1  2  

dynamic: 3 3    

worio: 3   3  

twitenlaces: 2   2  

tineye: 2   2  

semiocast: 2   2  

newsgator: 2   2  

envolk: 1 1    

entireweb: 1 1    

comodo: 1 1    

vagabondo: 1 1    

babaloo: 1 1    

lucene: 1 1    

ichiro: 1   1  

összesen: 100104 3764 48541 21963 23638 2198



Az aktivitás mértéke nagyjából állandó. 22,6 óránként, vagyis 543 naponta. Néha megszaladt a ló, és egy óra alatt akadt 539 lekérdezés is. Ettől függetlenül az átlag maradt, hiszen fél éves időszakról van szó, amelyet nehezen billent ki egy-egy kiugró érték.


katt a képre a nagyításhoz


Amit megfigyeltem, hogy a robotok egyre inkább hajlandóak belelapozni egy-egy írásba, és nem csupán az RSS feed, vagy a címlap érdekli őket. Sokat erősödött a Yandex, a Baidu és a Yahoo. A Hurricane pedig továbbra is a Google babérjaira próbál törni.

Az archívba lapozgatásnál is a Google messze veri a mezőnyt. Így aztán értetlenül állok azon tény előtt, hogy a legalaposabb keresőszolgáltatásból érkezik a legtöbb látogató. Átlagos visszalapozás:


google: 10. oldalig (10568 alkalom)
hurricane: 4. oldalig (2838 alkalom)
unknown: 2. oldalig (35 alkalom)
yahoo: 2. oldalig (19 alkalom)
yandex: 2. oldalig (9 alkalom)
baidu: 2. oldalig (2 alkalom)
askjeeves: 2. oldalig (2 alkalom)
panscient: 2. oldalig (1 alkalom)
msn: 2. oldalig (1 alkalom)


A botok továbbra is az aktív cimkékre ugranak. Kíváncsi vagyok, hogy az újabb strukturális változás csak a legaktívabb cimkéket hozza-e majd, vagy a cimkefelhőből mazsoláznak majd tovább. Amúgy itt jegyzem meg, hogy a releváns írásként felsorolt (ajánlott) linkeket NEM szeretik a botok lekövetni. Viszont a külső vagy belső hivatkozásokra azonnal ugranak, ha az komment formájában érkezik, és az RSS-feedbe belekerül.

Cimkék: crawleriada   statisztika   robot   kereső   analízis  


és akik nem hagyták szó nélkül...

Neved-e van?

Egy kis matek: háromból egy az annyi, mint    (számot írj).


lap tetejére