Webpiu Blog: Che cosa sono i Crawler o Robots o Spider ?

domenica 8 dicembre 2013

Che cosa sono i Crawler o Robots o Spider ?

Un crawler (detto anche spider o robot), è un software che analizza i contenuti di una rete (o di un database) in un modo metodico e automatizzato, in genere per conto di un motore di ricerca.

Un crawler è un tipo di bot (programma o script che automatizza delle operazioni).

I crawler solitamente acquisiscono una copia testuale di tutti i documenti visitati e le inseriscono in un indice.

Un uso estremamente comune dei crawler è nel Web. Sul Web, il crawler si basa su una lista di URL da visitare fornita dal motore di ricerca (il quale, inizialmente, si basa sugli indirizzi suggeriti dagli utenti o su una lista precompilata dai programmatori stessi). Durante l'analisi di un URL, identifica tutti gli hyperlink presenti nel documento e li aggiunge alla lista di URL da visitare. Il processo può essere concluso manualmente o dopo che un determinato numero di collegamenti è stato seguito.

Inoltre i crawler attivi su Internet hanno la facoltà di essere indirizzati da quanto indicato nel file "robots.txt" posto nella root del sito. All'interno di questo file, è possibile indicare quali pagine non dovrebbero essere analizzate. Il crawler ha la facoltà di seguire i consigli, ma non l'obbligo.

Ecco di seguito una tabella con i nomi degli spider dei principali motori di ricerca

Nome spider Motore di ricerca

googlebot : Google
fast Fast : Alltheweb
slurp Inktomi    : Yahoo!
scooter : Altavista
mercator    : Altavista
Ask Jeeves    : Ask Jeeves
teoma_agent : Teoma
ia_archiver Alexa : Internet Archive
Yahoo! Slurp : Yahoo
Romilda    : Facebook

Pagine

domenica 8 dicembre 2013

Che cosa sono i Crawler o Robots o Spider ?

Ultimo Post inserito

In Italia arriva "PIZZA GPT" il clone di ChatGpt per gl'italiani

Contattaci

i 5 post + letti ultimo anno