domenica 29 dicembre 2013

Web Crawler e spider di Google Yahoo Bing

Sono il cervello dei moderni motori di ricerca. Permettono di archiviare le pagine web e indicizzarle nel database dei vari Google, Bing e Yahoo!

Google, Bing, Yahoo! e le loro controparti cinesi adottano tecnologie informatiche raffinatissime per poter offrire – quasi all’istante – migliaia e migliaia di risultati ad ogni singola ricerca effettuata dagli utenti. Ma cosa rende possibile il funzionamento dei motori di ricerca? Il loro cervello, ovvero il web crawler spider.
 
 
Cosa è un web crawler
Il web crawler spider (a volte abbreviato semplicemente in “spider” oppure in “web crawler”) è un bot Internet che periodicamente scandaglia il World Wide Web allo scopo di crearne un indice o, meglio ancora, una mappa. I motori di ricerca – e alcuni altri servizi Internet – utilizzano software di questo genere per aggiornare il loro contenuto o per aggiornare gli indici web presenti nei loro database. Gli spider possono copiare il contenuto di tutte le pagine che visitano e conservarlo per dare modo al motore di ricerca di analizzarlo e indicizzarlo, ovvero catalogarlo individuandone parole chiave e argomenti trattati, in un secondo momento. Così facendo è possibile restituire risultati delle ricerche in modo veloce e accurato.

Come funziona il web crawler
Uno spider comincia il suo lavoro dai cosiddetti seeds (“semi” tradotto in italiano). I seeds altro non sono che una lista di URL, corrispondenti ad altrettanti siti web, che il programma dovrà visitare sistematicamente. Il contenuto di questi indirizzi sarà analizzato e salvato in memoria per essere poi indicizzato dal software di catalogazione associato al motore di ricerca. In particolare, il web crawler andrà alla ricerca dei collegamenti ipertestuali all'interno delle pagine, aggiungendoli alla lista degli URL da visitare successivamente. Gli URL di questa lista, chiamata crawl frontier (“frontiera dell'indicizzazione” in italiano), vengono visitati ricorsivamente dallo spider, così da poterne registrare eventuali modifiche o aggiornamenti.
 
Naturalmente, gli URL e i collegamenti ipertestuali presenti nelle pagine della frontiera verranno a loro volta aggiunti alla lista generale e visitati in seguito. In questo modo viene a crearsi una vera e propria ragnatela di pagine Internet, legate le une alle altre attraverso collegamenti ipertestuali (hyperlinks). Da qui la spiegazione del nome spider (“ragno” in inglese) e del perché Tim Berners-Lee decise di chiamare World Wide Web (“grande ragnatela mondiale”, più o meno) il suo servizio basato sulla rete Internet.

Nel caso in cui il crawler agisca in modalità “archiviazione”, copia e conserva i contenuti di ogni singola pagina che visita. Per velocizzare il processo le pagine sono salvate come un'istantanea, restando però leggibili e navigabili.

domenica 22 dicembre 2013

Cosa significa Google Zeitgeist ?

Sono lo specchio fedele di ciò che accade nella società e di ciò che interessa e attira l’attenzione delle persone: in altre parole, riflettono lo spirito dei tempi. Le ricerche su Google, il motore di ricerca web più diffuso del pianeta, sono trilioni ogni anno, effettuate in quasi 150 lingue, e ogni anno vengono analizzate e riportate nel Google Zeitgeist (zeitgeist significa “spirito dei tempi”, in tedesco), la classifica delle parole più ricercate dagli utenti di tutto il mondo.
Il Google Zeitgeist 2013 ripercorre, attraverso le parole ricercate, gli eventi, le notizie e le mode dell’anno, classificando le ricerche in 10 categorie (Emergenti, Cinema, Ricette, Perché, Vendere, Come fare, Mangiare, Cosa significa, Cambiare, Fa dimagrire?) per paese e a livello globale.
 

In Italia, le prime 10 ricerche “emergenti”, cioè quelle che caratterizzano il 2013 rispetto a parole che si sono presentate anche negli altri anni, sono:

1. Elezioni 2013
2. Paul Walker
3. Zalando
4. Movimento 5 Stelle
5. NoiPA
6. Beppe Grillo
7. iPhone 5s
8. Papa Francesco
9. iOS 7
10. Sanremo 2013

Interessante, fra le altre classifiche proposte, quella delle parole associate alla domanda “perché”, che rivela il desiderio degli italiani di approfondimento e di comprendere le vicende dell’attualità:

1. Votare Grillo
2. Votare Bersani
3. Votare Berlusconi
4. Piedi gonfi
5. Votare Monti
6. Siria guerra
7. Dimissioni Papa
8. No Rodotà
9. Frodo parte
10. Circoncisione maschile

Anche la categoria “cosa significa” riflette in gran parte l’attualità, a partire dalla prima parola in classifica, “gesuita”, sicuramente legata all’elezione di papa Francesco, un gesuita.

1. Gesuita
2. Swag
3. Aski
4. Guantanamera
5. Autistico
6. Emerito
7. Omissis
8. Fyi
9. Omofobia
10. Filantropo

Sul tema del “cambiare” gli italiani appaiono molto concreti e immersi nella quotidianità, anche se all’8° posto figura la ricerca “come cambiare decisamente vita”, indicativa di uno stato di irrequietezza diffusa.

1. Lingua ruzzle
2. Suoneria whatsapp
3. Residenza
4. Look capelli
5. Lampadine
6. Come cambiare voce
7. Cinghia tapparella
8. Decisamente vita
9. Guarnizione frigorifero
10. Piercing ombelico

Infine la categoria “vendere”, la cui classifica è particolarmente efficace nel descrivere lo spirito dei tempi: si pensa innanzi tutto a vendere a cinesi e russi (per trovare nuovi sbocchi commerciali?), ma anche, in tempo di crisi, a vendere quote societarie, bar e attività.

1. Ai cinesi
2. Ai russi
3. Sigarette elettroniche
4. Quadri online
5. Pesce cucinato
6. iPhone 5
7. Quote società
8. Bar
9. Attività
10. iPad


domenica 15 dicembre 2013

Le parole più cercate su GOOGLE nel 2013

Da un lato, viene molto da ridere. Dall’altro, molto da piangere. Se è vero che il “dimmi cosa digiti e ti dirò chi sei” è stato usato e abusato, è altrettanto vero che quello che ognuno di noi cerca online racconti molte cose. Ed eccoci arrivati al Google Zeitgeist. “Lo spirito dei tempi”, ovvero il rapporto delle parole più cercate dagli italiani in questo 2013 sul motore di ricerca. Sono i termini che hanno registrato un boom negli ultimi 12 mesi e che fanno un po’ da diario degli eventi, un po’ da racconto delle novità di costume, degli incubi, delle paure e delle curiosità.
 

Cominciamo. Le sezioni sono parecchie.
Nelle ricerche generali, padroneggiano le “Elezioni 2013” (1), che tra crisi, maggioranze non maggioranze, larghe (larghissime) intese, hanno visto emergere una novità nel panorama italiano. Il “Movimento 5 stelle” (4) di “Beppe Grillo” (6), termini che infatti rientrano entrambi nella top ten delle ricerche.

Fuor di politica, ci sono “Paul Walker” (2) – attore e produttore cinematografico scomparso a soli 40 anni in un incidente stradale (era la star di “Fast & Furious”) – ma anche “Sanremo 2013” (10: per la cronaca, ha vinto Marco Mengoni), che al di là del consueto snobismo dichiarato, evidentemente interessa ancora parecchio al pubblico.

Outsider assoluto “NoiPA” (5), Sistema informativo realizzato dal Dipartimento dell’amministrazione generale, del personale e dei servizi del Ministero dell’Economia e delle Finanze, per il trattamento economico del personale centrale e periferico della PA.
Lascia un po’ interdetti la presenza, tra le prime dieci ricerche, di “Zalando” (3): che gli spettatori della tv, continuando a sentir urlare giovani donne davanti a scatole di scarpe negli spot, si siano chiesti cosa diamine avessero da strillare?

Non poteva mancare invece “iOS 7” (9): avrà contribuito chi ha installato subito il nuovo sistema operativo mobile di Apple, chi ha seminato il panico, chi ha partecipato alla spartizione iniziale delle parti (i “che-figata-galattica” contro i “mi-fa-schifo-non-funziona-niente”) e chi ha aspettato mesi per paura di perdere tutti i dati dell’iPhone/iPad, per poi reperire informazioni. Magari su come consumare meno batteria e o scoprire tutte le nuove funzioni.
Ricerche boom anche per il nuovo iPhone 5s (7) e per un altro che non poteva certo essere assente: il nuovo Papa (Francesco: per lui ottavo posto delle ricerche generali), eletto a marzo scorso. Quello che fa impazzire le guardie del corpo perché va ad abbracciare tutti, quello che chiama personalmente a casa i fedeli, e quello che si fa le foto-faccioni con i papa boys. Ovvero, il Papa eletto mentre il precedente è ancora in vita, il che alza la palla alla ricerca della categoria “Perché?”, dove si trova “Dimissioni Papa” (7).

E finché si tratta di ragioni altrui, la ricerca su Google ci sta tutta. Un po’ meno comprensibile che gli italiani abbiamo chiesto al motore di ricerca perché votare Grillo (1), Bersani (2), Berlusconi (3), e pure Monti (5). Hanno domandato anche il perché del “No Rodotà” (comprensibile: 8), di “Siria Guerra” (molto più che comprensibile: sesto posto), di “Circoncisione maschile” (ok: 10), “Piedi Gonfi” (un medico, no? Comunque: quarto posto, meglio dei dubbi su Monti), e di “Frodo parte” (9: sospendere giudizio).

Tra le ricette, la più richiesta è stata quella del “casatiello”, e con piacere, in penultima posizione, è entrata quella delle “felafel”.
Nella categoria “Vendere” se ne vedono delle belle. Primo posto per “vendere ai cinesi”, si presume per raggiungere il sito www.vendereaicinesi.it. Seconda posizione per “vendere ai russi”. Terzo posto va al fenomeno colonizzatore del 2013, le ”sigarette elettroniche”. Il resto della classifica è tutto dedicato allo smercio di beni in tempi di crisi: “quadri online” (4), “iPhone5” 6), “quote società” (7), “bar” (8), “attività” (9), “iPad” (10), e non si sa bene perché, “pesce cucinato” (5).

Chi è arrivato su Google nel 2013 si è anche chiesto come fare una quantità di cose indefinite: “scrocchiarella” (1), “Freestyle” (2: hai visto mai, con tutto il successo che riscuotono adesso i rapper), “Magie” (4: per truffa, o in senso poetico?), “Sushi” (9: ché fuori costa), e anche, in quartultima posizione, “autoerotismo”. Questo per sfatare tante leggende, compresa quella su cecità e altre punizioni divine.

La categoria “cambiare” è un concentrato di pragmatismo, con un’unica eccezione. Ci sono in classifica “Lingua ruzzle” (1), anche perché vincere con idiomi che non siano il proprio è un’impresa, “suoneria whatsapp” (2), perché le notifiche perpetue, francamente, sono ostili; e poi “residenza” (3), “lampadine” (5), e via di seguito. Del tutto anomala la presenza di “cambiare decisamente vita” (8): non un po’, non parzialmente, ma proprio decisamente. Chissà che soluzioni avranno trovato.

In molti hanno chiesto cosa significasse “autistico” (quinto posto nella categoria “Cosa significa”): quest’anno è uscito un libro intitolato “Se ti abbraccio non avere paura”, di Fulvio Ervas, di cui si è parlato molto, e che racconta proprio il viaggio di un padre con il figlio affetto da questa malattia. In molti hanno cercato il significato di “omofobia” (9).

Breve carrellata sulle ricerche di cinema: vince “Il Grande Gatsby”, seguito da “Django Unchained” (2), “Cloud Atlas” (3), “Sole a catinelle” (4), “Iron Man 3” (5), “Cattivissimo Me 2” (6), “Rush” (7), “La Migliore Offerta” (8), “Educazione siberiana” (9) e “ Il principe abusivo” (10).

Il settore “mangiare” invece, potrebbe ribaltare le storiche leggende sugli italiani fini degustatori di buon cibo: svetta la carta igienica, che con quello che costa, chissà come mai suscita tanta curiosità. Però attenzione, potrebbe essere colpa di Real Time, che nella serie “Io e la mia ossessione”, ha raccontato la storia di una ragazza che da 23 anni mangia carta igienica. C’è anche chi si chiede come mangiare “senza bere” (8), la muffa (4) o l’aglio crudo (6) e chi cosa mangiare per evitare il meteorismo (2), e quando si è in allattamento (3).

Per chiudere, gli italiani si sono chiesti cosa faccia dimagrire: dormire? Piangere? Il cioccolato? Al primo posto, l’incubo di questo 2013: la zumba.

domenica 8 dicembre 2013

Che cosa sono i Crawler o Robots o Spider ?

Un crawler (detto anche spider o robot), è un software che analizza i contenuti di una rete (o di un database) in un modo metodico e automatizzato, in genere per conto di un motore di ricerca.



Un crawler è un tipo di bot (programma o script che automatizza delle operazioni).


I crawler solitamente acquisiscono una copia testuale di tutti i documenti visitati e le inseriscono in un indice.

Un uso estremamente comune dei crawler è nel Web. Sul Web, il crawler si basa su una lista di URL da visitare fornita dal motore di ricerca (il quale, inizialmente, si basa sugli indirizzi suggeriti dagli utenti o su una lista precompilata dai programmatori stessi). Durante l'analisi di un URL, identifica tutti gli hyperlink presenti nel documento e li aggiunge alla lista di URL da visitare. Il processo può essere concluso manualmente o dopo che un determinato numero di collegamenti è stato seguito.

Inoltre i crawler attivi su Internet hanno la facoltà di essere indirizzati da quanto indicato nel file "robots.txt" posto nella root del sito. All'interno di questo file, è possibile indicare quali pagine non dovrebbero essere analizzate. Il crawler ha la facoltà di seguire i consigli, ma non l'obbligo.

Ecco di seguito una tabella con i nomi degli spider dei principali motori di ricerca


Nome spider       Motore di ricerca
 


googlebot           : Google
fast Fast             : Alltheweb
slurp Inktomi      :  Yahoo!
scooter               : Altavista
mercator            : Altavista
Ask Jeeves          : Ask Jeeves
teoma_agent       : Teoma
ia_archiver Alexa : Internet Archive
Yahoo! Slurp       : Yahoo
Romilda              : Facebook 




giovedì 5 dicembre 2013

Come funziona il motore di ricerca di Google?

La ricerca è l'operazione più comune su Internet. È essenziale per accedere alle informazioni, creare e conservare documenti e molte altre attività. Grandi aziende come Google si affidano a questa funzione essenziale per funzionare e hanno sviluppato motori specializzati per svolgere questo compito in modo semplice e rapido. Il motore di ricerca Google è uno di questi motori specializzati: fornisce un'interfaccia intuitiva per la ricerca in Internet e fornisce risultati pertinenti in un breve lasso di tempo.



Il motore di ricerca Google si basa sul concetto di database ricercabili. Quando un nuovo utente di Google digita una query nella barra di ricerca, il programma accede al proprio database di informazioni per ottenere risultati. Questo concetto ha portato alla creazione di molte app che consentono a un computer di comprendere particolari database con l'aiuto dell'intelligenza artificiale. Ciò ha portato a creazioni impressionanti come auto a guida autonoma o sistemi di riconoscimento vocale. In sostanza, comprendendo le capacità di un computer, gli ingegneri hanno aperto molte nuove strade per lo sviluppo del software e l'archiviazione dei dati.

Come con qualsiasi database, la chiave per ottenere risultati di ricerca di Google di successo è avere dati pertinenti memorizzati al suo interno. Ciò significa che l'algoritmo di ricerca di Google mira a fornire risultati di ricerca pertinenti in modo rapido. L'algoritmo funziona utilizzando varie regole preimpostate per identificare le pagine Web pertinenti all'interno del database di Google e presentare tali pagine per prime nei risultati di ricerca. Successivamente, se ci sono più pagine di una pagina web all'interno del database di Google, quella pagina apparirà più in alto nella pagina dei risultati di ricerca. Questo è noto come PageRank; classifica le pagine Web in base a quanti altri siti Web si collegano a esse e sembra funzionare correttamente poiché sono trascorsi solo 15 anni dal primo lancio del motore di Google.

Uno dei principali vantaggi di avere un motore specializzato come la ricerca di Google motore è che ha portato a un'enorme quantità di innovazione in altre aree della tecnologia. Le grandi aziende come Google non hanno altra scelta che trovare costantemente nuovi modi per eseguire in modo efficiente le ricerche online. Ora si affidano a motori personalizzati come Google per funzionare in modo efficace. La concorrenza tra i motori di ricerca ha portato a un livello di innovazione senza precedenti in questo campo: alcuni motori ora funzionano come centri di archiviazione dati per applicazioni mobili o come soluzioni di posta elettronica per singoli utenti. Man mano che sempre più persone sperimenteranno questi motori innovativi, si creerà uno slancio verso velocità di elaborazione ancora più elevate nei futuri aggiornamenti.

Il motore di ricerca di Google ha rivoluzionato il modo in cui gli utenti accedono alle informazioni su Internet e si è dimostrato molto efficace perché funziona bene con i dati rilevanti memorizzati nel suo database. A causa della concorrenza tra i motori di ricerca, l'ulteriore sviluppo di motori specializzati li rende ancora più affidabili ed efficaci. Inoltre, questi motori hanno aperto molti nuovi regni della tecnologia attraverso ricerche efficienti che hanno portato a una crescita importante dell'azienda e alla crescita degli standard di accessibilità degli utenti.

domenica 1 dicembre 2013

Cos'è il file robots.txt ?

Il file robots.txt permette ai webmaster e agli amministratori di sistema di indicare agli spider dei motori di ricerca quali pagine HTML non debbano essere esaminate.

Lo standard per l'esclusione dei robot/spider si avvale dell'utilizzo di un normale file di testo, da creare attraverso un qualunque text editor (es. Notepad / Blocco Note di Windows). Tale file va chiamato "robots.txt" e contiene, in un particolare formato, delle istruzioni che possono impedire a tutti o alcuni spider il prelievo di alcune o tutte le pagine del sito.
 

Il file robots.txt va creato e pubblicato on-line nella directory principale del sito web. Ad esempio, se il sito ha indirizzo https://www.nomesito.xxx , il file dovrà essere accessibile all'indirizzo https://www.nomesito.xxx/robots.txt.
Tutti gli spider di quei motori di ricerca che hanno deciso di aderire a questo standard e di seguire le indicazioni del file robots.txt, ogni volta che accederanno al sito web, per prima cosa andranno a cercare nella directory principale il suddetto file e, se lo troveranno, seguiranno le direttive contenute al suo interno.

Contenuti del file robots.txt
Il file robots.txt contiene una lista di pagine e directory che gli spider NON possono prelevare.
Ciò significa che non esiste una istruzione per dire allo spider: "puoi prelevare questa pagina" ma esistono solo istruzioni per dirgli: "NON puoi prelevare questa pagina". Non a caso lo standard si chiama Standard per l'esclusione dei robot.
Quanto appena specificato è estremamente importante, in quanto molti degli errori che i webmaster spesso inseriscono nei file robots.txt hanno origine dall'errata comprensione di ciò che è possibile fare con essi.
Se non avete la necessità di impedire ai motodi ricerca di prelevare alcune (o tutte) pagine del vostro sito, allora il file robots.txt non vi serve.

Formato di robots.txt
Il file robots.txt contiene dei record, ognuno dei quali comprende due campi: il campo "User-agent" ed uno o più campi "Disallow".
Il campo User-agent serve ad indicare a quale robot/spider le direttive successive sono rivolte. La sua sintassi è:
User-agent
Il campo Disallow serve a indicare a quali file e/o directory non può accedere lo spider indicato nel campo User-agent. La sintassi di questo campo è:
Disallow

Esempio di un record:
User-agent: googlebot
Disallow: /testi.html
Disallow: /poesie/
Il suddetto record dice a Google ("googlebot" è il nome dello spider di Google) che non gli è permesso prelevare il file testi.html nè accedere alla directory "poesie" e ai suoi contenuti, sottodirectory comprese. Notate come il nome del file è preceduto da un carattere "/" (che indica la directory principale del sito) e come il nome della directory fa uso di un carattere "/" anche in coda.
Il campo User-agent può contenere un asterisco "*", sinonimo di "qualunque spider". Per cui l'esempio seguente dice a tutti gli spider di non prelevare il file temporaneo.html:
User-agent: *
Disallow: /temporaneo.html
Il campo Disallow può contenere un carattere "/" ad indicare "qualunque file e directory". L'esempio che segue impedisce a scooter (lo spider di Altavista) di prelevare qualunque cosa:
User-agent: scooter
Disallow: /
Infine, il campo Disallow può essere lasciato vuoto, ad indicare che non ci sono file o directory di cui si vuole impedire il prelievo. L'esempio seguente mostra come dire a tutti i motori di ricerca di prelevare tutti i file del sito:
User-agent: *
Disallow:

Esempio di un file robots.txt
Come scritto pocanzi, il file robots.txt si compone di uno o più record, ognuno dei quali prende in esame spider differenti. Ecco dunque un esempio completo di file robots.txt, che blocca del tutto Altavista, impedisce a Google l'accesso ad alcuni file e directory e lascia libero accesso a tutti gli altri motori di ricerca.
User-agent: scooter
Disallow: /
User-agent: googlebot
Disallow: /intestazione.html
Disallow: /links.html
Disallow: /temporanei/
Disallow: /cgi-bin/
User-agent: *
Disallow:

Lista degli spider
Di seguito una breve lista con i nomi degli spider dei principali motori di ricerca internazionali:
Spider            Motore di ricerca
========================
googlebot       Google
fast                Fast - Alltheweb
slurp              Inktomi - Yahoo!
scooter           Altavista
mercator         Altavista
Ask Jeeves      Ask Jeeves
teoma_agent   Teoma
ia_archiver     Alexa - Internet Archive
Il nome (User-agent) degli spider di altri motori di ricerca può essere individuato cercando nei log del server HTTP che gestisce il sito web oppure consultando le pagine dei motori di ricerca dedicate ai webmaster. Quasi sempre, vengono indicati i nomi degli spider e come bloccarli usando il file robots.txt.

Altre informazioni utili
Nel caso in cui voleste inserire all'interno del file robots.txt alcuni commenti, potete farlo scrivendo righe di testo il cui primo carattere è un "cancelletto" #. Tali righe verranno completamente ignorate dagli spider dei motori. Esempio:
User-agent: *
# Non voglio che i motori di ricerca cerchino le pagine
# della mia directory "personale".
Disallow: /personale/
Consigliamo di aderire scrupolosamente alla sintassi utilizzata negli esempi riportati. Prestate attenzione a non dimenticare i due punti e lo spazio prima del contenuto del campo.
Quando gli spider non trovano il file robots.txt, si comportano come se avessero ricevuto via libera ed accederanno dunque a tutte le pagine trovate nel sito.

Ultimo Post inserito

In Italia arriva "PIZZA GPT" il clone di ChatGpt per gl'italiani