domenica 29 dicembre 2013

Web Crawler e spider di Google Yahoo Bing

Sono il cervello dei moderni motori di ricerca. Permettono di archiviare le pagine web e indicizzarle nel database dei vari Google, Bing e Yahoo!

Google, Bing, Yahoo! e le loro controparti cinesi adottano tecnologie informatiche raffinatissime per poter offrire – quasi all’istante – migliaia e migliaia di risultati ad ogni singola ricerca effettuata dagli utenti. Ma cosa rende possibile il funzionamento dei motori di ricerca? Il loro cervello, ovvero il web crawler spider.
 
 
Cosa è un web crawler
Il web crawler spider (a volte abbreviato semplicemente in “spider” oppure in “web crawler”) è un bot Internet che periodicamente scandaglia il World Wide Web allo scopo di crearne un indice o, meglio ancora, una mappa. I motori di ricerca – e alcuni altri servizi Internet – utilizzano software di questo genere per aggiornare il loro contenuto o per aggiornare gli indici web presenti nei loro database. Gli spider possono copiare il contenuto di tutte le pagine che visitano e conservarlo per dare modo al motore di ricerca di analizzarlo e indicizzarlo, ovvero catalogarlo individuandone parole chiave e argomenti trattati, in un secondo momento. Così facendo è possibile restituire risultati delle ricerche in modo veloce e accurato.

Come funziona il web crawler
Uno spider comincia il suo lavoro dai cosiddetti seeds (“semi” tradotto in italiano). I seeds altro non sono che una lista di URL, corrispondenti ad altrettanti siti web, che il programma dovrà visitare sistematicamente. Il contenuto di questi indirizzi sarà analizzato e salvato in memoria per essere poi indicizzato dal software di catalogazione associato al motore di ricerca. In particolare, il web crawler andrà alla ricerca dei collegamenti ipertestuali all'interno delle pagine, aggiungendoli alla lista degli URL da visitare successivamente. Gli URL di questa lista, chiamata crawl frontier (“frontiera dell'indicizzazione” in italiano), vengono visitati ricorsivamente dallo spider, così da poterne registrare eventuali modifiche o aggiornamenti.
 
Naturalmente, gli URL e i collegamenti ipertestuali presenti nelle pagine della frontiera verranno a loro volta aggiunti alla lista generale e visitati in seguito. In questo modo viene a crearsi una vera e propria ragnatela di pagine Internet, legate le une alle altre attraverso collegamenti ipertestuali (hyperlinks). Da qui la spiegazione del nome spider (“ragno” in inglese) e del perché Tim Berners-Lee decise di chiamare World Wide Web (“grande ragnatela mondiale”, più o meno) il suo servizio basato sulla rete Internet.

Nel caso in cui il crawler agisca in modalità “archiviazione”, copia e conserva i contenuti di ogni singola pagina che visita. Per velocizzare il processo le pagine sono salvate come un'istantanea, restando però leggibili e navigabili.

Ultimo Post inserito

In Italia arriva "PIZZA GPT" il clone di ChatGpt per gl'italiani