venerdì 21 febbraio 2014

Che cos'e una sitemap xml

Una sitemap xml è un protocollo adottato dai maggiori motori di ricerca che permette ai webmaster di segnalare tutte le pagine del loro sito.

Per molti i motori di ricerca sono un autentico mistero. Come fanno a sapere quello che c'è nei siti? In due modi essenzialmente, scoprendo nuove pagine seguendo i link di pagine esistenti e "ascoltando" le segnalazioni dei webmaster.

Nei motori di ricerca esistono dei software dedicati che si chiamano Bot che 24 ore su 24 non fanno altro che navigare il web alla ricerca di nuovi contenuti o alla verifica di quelli già conosciuti. Quindi durante il loro esplorare il web possono scoprire un link ad un sito fino ad allora sconosciuto ed iniziare a proporlo nei risultati del motore di ricerca.


Il problema di questo sistema è che quando il sito è nuovo, è stato appena realizzato, se il proprietario non "lo fa conoscere", rimarrà sconosciuto ai motori di ricerca. I modi per farsi conoscere sono essenzialmente due. O farsi linkare da un sito esistente, già indicizzato, oppure andare su ogni motore di ricerca, o per lo meno i principali (Google, Bing e Yahoo) e segnalare il primo indirizzo.
Ad esempio su Google la segnalazione si fa da questo indirizzo, dove è possibile digitare l'indirizzo del sito da indicizzare. Attenzione che non è una cosa automatica l'inserimento del sito nel database del motore di ricerca. è solo una segnalazione, poi sarà a discrezione del software di indicizzazione, se e quando inserire il sito fra i risultati. Se il sito è di bassa qualità (contenuti copiati da altri, solo un nome con la scritta in costruzione, o cose di questo genere) potrebbe non essere assolutamente indicizzato. Oppure in altri casi potrebbe essere molto lenta (vedi Bing: lento nell'indicizzazione).

Tornando alla segnalazione del sito, potrebbe accadere che non tutte le pagine siano indicizzate. Questo potrebbe accadere per più motivi, come ben spiegato da Google nelle sue pagine:
  • Il sito presenta contenuti dinamici.
  • Il sito contiene pagine che non sono facilmente individuabili da Googlebot durante il processo di scansione, ad esempio pagine con contenuti AJAX o immagini.
  • Il sito è nuovo e pochi siti contengono link al tuo sito. Googlebot esegue la scansione del Web seguendo i link da una pagina a un'altra, pertanto se pochi link puntano al tuo sito potrebbe essere difficile individuarlo.
  • Il sito dispone di un archivio consistente di pagine di contenuti che non sono molto ben collegate l'una all'altra oppure non sono per nulla collegate tra di loro.
Per superare questo problema è stato creato da Google il protocollo sitemap, realizzato tramite XML e arrivato attualmente alla versione 0.9. In parole povere è un file di testo, scritto tramite XML, dove c'è una lista di tutte le pagine del proprio sito (con i rispettivi link). Questo file va chiamato sitemap.xml e va posizionato nella root del proprio sito. In questo modo, quanto un BOT viene a visitare la nostra casa digitale, cerca se è presente il file sitemap.xml, se è presente lo usa come punto di partenza della propria esplorazione, senza andarsi a cercare i link a partire dalla homepage.

Dato che Google ha rilasciato questo protocollo tramite la Attribution-ShareAlike Creative Commons License, anche altri lo possono usare, ed ora è supportato anche da altri motori di ricerca.
L'ultilizzo della sitemap è molto consigliato in termini di SEO, in quanto aiuta il motore di ricerca ad indicizzare tutti i nostri contenuti, e più nostre pagine sono presenti sul motore di ricerca, più è probabile che si esca nelle SERP. Il motivo è scontato. Ogni pagina si basa su un argomento su cui insistono più parole chiave. Più pagine significa essere visibile su un maggior numero di parole chiave. è quasi una equazione matematica.

Ad esempio, in questo sito ogni settimana produciamo pagine nuove, tramite il blog, e questo ci permette di aumentare di mese in mese il traffico che facciamo perchè siamo sempre più rilevanti sui motori di ricerca.

Attenzione ad una cosa. Non bisogna cedere alla tentazione, di fare pagine a tutto spiano, copiandole da altri siti. I motori di ricerca e Google in particolare, penalizzano particolarmente i copioni. Molto meglio un contenuto originale che 10 copiati.

Per chi volesse approfondire sulle sitemap, vi rimando alle specifiche del sito ufficiale. è scritto in italiano, è molto facile da capire, anche per i meno esperti. Nel caso invece vogliate vedere subito come è fatta una sitemap.xml, potete cliccare sul link e vedere la sitemap di questo sito. Vi consiglio di cliccare sul link con l'explorer, perchè questo browser fa una formattazione automatica del file, che permette una più facile lettura. Se state con Chrome, non si capisce niente, a meno che dopo aver caricato la pagina, non facciate il tasto destro e clicchiate Visualizza sorgente pagina.

Ultimo Post inserito

In Italia arriva "PIZZA GPT" il clone di ChatGpt per gl'italiani