martedì 23 agosto 2011

A volte ci sono cose che Google non deve sapere...!!!!

Google è il motore di ricerca più grande ed utilizzato al mondo. Riesce ad indicizzare milioni di pagine sparse in ogni angolo del nostro pianeta, grazie a dei piccoli servitori automatizzati che si chiamano Robot (conosciuti anche comeWanderers o Spiders)
che hanno il compito di girovagare in rete alla ricerca di pagine da indicizzare. Ma se non volessimo che le nostre pagine fossero inserite nell' immenso database di Google? Qualcuno di voi forse si starà chiedendo perchè mai dovremmo sbattere la porta in faccia a Google. Ci sono tante ragioni che spingono un webmaster a tenere lontani gli Spider: evitare di far indicizzare nuovamente pagine vecchie ed obsolete mentre stiamo aggiornando un sito, evitare l' appesantimento del server dovuto alle continue visite del Robot, evitare l' indicizzazione di pagine sensibili che contengono dati personali, ecc... Proprio su quest' ultimo punto vorrei spendere 2 parole: Google è il miglior amico di un hacker (io direi anche cracker) e non lo scopro io oggi ma ormai è un fatto risaputo da molto tempo. Ci sono tecniche molto accurate (ed estremamente semplici) che permettono di ottenere una quantità enorme di "informazioni sensibili" solo effettuando delle ricerche in Google. Bastano pochi click e potremmo trovare elenchi di password, informazioni bancarie, file privati, messaggi di posta elettronica, ecc... Questo accade perchè lo Spider di Google cerca qualsiasi tipo di pagina presente in rete e la indicizza senza sapere cosa contiene.
Per queste ragioni un webmaster deve poter comunicare con gli Spider e dire quali pagine possono indicizzare e quali no. Il metodo che ci permette di fare ciò è quello di creare un file chiamato robots.txt all' intero della cartella principale (root directory) del nostro sito web. Questo file conterrà tutte le regole che uno o più Spider dovranno seguire. Ecco le regole più importanti che possono essere inserite nel file robots.txt

1) Rimozione completa del sito web da tutti i motori di ricerca
User-agent: *
Disallow: /

2) Rimozione del sito web solo da GoogleUser-agent: Googlebot
Disallow: /
3) Rimozione di tutte le pagine contenute in una cartella (per esempio la cartella mail)
User-agent: *
Disallow: /mail/

4) Rimozione di tutte le immagini del sito web da Ricerca Immagini di Google
User-agent: Googlebot-Image
Disallow: /
Ovviamente nel file robots.txt dovete inserire solo le scritte in rosso che vi interessano.

Per conoscere altre regole da inserire nel file robots.txt, vi rimando alla pagina di Google che tratta dei Robot.

Nessun commento:

Posta un commento