Ancora sul caso LiveLeak e la presunta censura di Google.

UPDATE: Allora, fermi tutti. Il post scritto di seguito non è corretto. Punto Informatico (PI) ha dato la notizia completa dell’accaduto, grazie anche ad una conferma ufficiale di Google. LiveLeak ha prima “sbagliato” ad impostare i suoi criteri d’esclusione dai motori di ricerca, per poi aver corretto il file. Ed effettivamente è quello che l’articolo su PI dice, e ha sempre detto, a chiare lettere (mio l’errore comunicativo). Quindi ora c’è da capire perché LiveLeak abbia urlato allo scandalo (ed io con lei, credendo nella loro serietà e buonafede). Staremo a vedere.

UPDATE2: Un altro aggiornamento sul caso. Innanzi tutto ho levato lo strike a tutto il post, perché qualcuno giustamente voleva cmq leggere la notizia. Quindi dato l’update prendete quanto scritto con molta cautela. Per quanto riguarda invece lo storico del file robots.txt, non esiste al momento una “copia certa” del file incriminato. La mia decisione di retrocedere su questo post è stata presa dopo aver sentito via mail Punto Informatico (PDA) che mi ha confermato esserci stato un contatto chiarificatore con Google che assicurava la versione dei fatti riportata da PI: e quindi che LiveLeak ha avuto una versione del file robots.txt sbagliata, e che ora risulta corretta. Mi fido naturalmente della fonte di PI e per questo ho deciso di seguire la sua linea. Dovremo quindi aspettare la prossima Google Dance per apprezzare i risultati. Ci sono alcuni elementi ancora che non mi tornano e che voglio continuare ad approfondire: a) perché altri motori di ricerca, tipo Yahoo!, hanno migliaia di link verso LiveLeak? b) perché le uniche tracce di file robots.txt che si trovano in rete sono in realtà corrette? c) perché LiveLeak si sarebbe impegnata in una bufala di questo tipo minando alle basi il suo elemento distintivo: la credibilità? Non so ancora rispondere, ma per saperne di più ho scritto direttamente a LiveLeak per avere una loro versione ufficiale. La mia posizione su Google non cambia comunque di una virgola. Troppo lunga e troppo di frequente aggiornata la lista delle censure riportata, ad esempio, su questa pagina di Wikipedia, per poter non ripetere tutte le considerazioni fatte su Google. C’è chi mi dice, e comprendo la sua posizione: sei libero di cambiare. Giusto, peccato che Google sia oggi in una indiscutibile posizione dominante e che ci sia arrivata anche grazie al fatto che tutti noi non solo l’abbiamo lasciata fare, ma l’abbiamo anche aiutata ad entrare nelle nostre vite credendo al loro “equilibrio”. Cosi evidentemte non è stato, e allora oggi la loro politica non può prescidere dalla posizione che hanno acquisito. Per chi chiede alternative reali a Google, segnalo un movimento chimamato “Anti Google Search Engine Index” che propone un elenco aggiornato di tutti i motori alternativi non soggetti alla censura. Vi tengo aggiornati sul caso.

***

LiveLeak Signori facciamo un po di chiarezza sul caso LiveLeak e Google. La notizia l’ho data ieri. Il sospetto è di una possibile censura di Google sul video portale di informazione indipendente LiveLaek, misteriosamente assente dagli indici di Google. Un articolo su Punto-Informatico di oggi riporta la notizia, dando però una lettura diversa dell’accaduto. Secondo l’interpretazione di alcuni blogger (USA) la vera causa della mancata indicizzazione di LiveLeak sarebbe da attribuire ad un errore di LiveLeak stesso che avrebbe sbagliato a configurare il file robots.txt.

Ora, per chi non mastica di questi argomenti, basti sapere che ogni sito ha la possibilità di specificare cosa un motore di ricerca può indicizzare. Non disperino i non tecnici, l’argomento è semplice e sufficientemente interessante per essere approfondito. In pratica se io volessi che un motore di ricerca (Google, Yahoo & Co.) non dovesse far risultare nei suoi elenchi certe pagine (o porzioni) del mio blog potrei specificarlo per ottenere il risultato desiderato. Per farlo dovrei molto semplicemente scrivere in un file, chiamato robots.txt, tutte le porzioni del mio sito da escludere.

L’accusa a LiveLaek è di aver specificato nel suo robots.txt l’esclusione dell’intero suo sito. Quindi il fatto che il portale video non appaia negli indici di Google è semplicemente da imputare ad una volontà, o ad un errore di configurazione, degli autori del sito stesso.

Se cosi fosse, la denuncia lanciata da LiveLaek sarebbe stata una tremenda gaffe e Google risulterebbe quindi totalmente priva di colpa.

Ok. Vediamo cosa dice il file robots.txt di LiveLaek, cosi come riportato per altro dai blogger (USA) che sostengono questa tesi:

200704121910

Se volete fare una verifica potete controllarlo da soli cliccando qui.

Ora, nessuno conosce lo “storico” del file robots.txt di LiveLeak, ma tutto il ragionamento è basato sul file attualmente disponibile (l’unico in realtà che sembra sempre essere esistito).

L’interpretazione riportata da Punto-Informatico fa intendere che venendo specificata genericamente la voce “Disallow: “, ovvero “non consentire” seguita dal nulla (quindi i soli “:”), faccia intendere che in realtà LiveLeak abbia voluto che qualsiasi contenuto del suo sito sia interdetto dall’esser indicizzato (quindi secondo questa tesi se “Disallow” è seguito dal nulla = tutto è interdetto all’indicizzazione).

Andando però a leggere le specifiche ufficiali del file robots.txt si trova chiaramente che per la voce “Disallow:”

“Any empty value, indicates that all URLs can be retrieved. At least one Disallow field needs to be present in a record.”

ovvero che specificando un valore “vuoto” per la voce “Disallow:” tutti i contenuti del sito possono essere indicizzati. Quindi, per come è impostato il file robots.txt di LiveLeak qualsiasi motore di ricerca avrebbe dovuto indicizzare tutti i contenuti del video portale indipendente. Per fare la classica “prova del nove” ho voluto cercare i link a LiveLeak su Yahoo trovando oltre 50 mila dei cosidetti “inlink”, per usare la terminologia Yahoo, a dimostrazione che le regole di esclusione impostate da LiveLeak – se correttamente lette – producono un risultato più che soddisfacente.

Senza voler ripetere le conclusioni alle quali ero già arrivato, vorrei solo sottolineare quanto il caso LiveLeak meriti una lettura più attenta che analizzi fino in fondo quanto sta accadendo. A meno che io non abbia totalmente mal interpretato le specifiche ufficiali delle regole di esclusione dai motori di ricerca (ma le specifiche ufficiali mi sembrano parlare molto chiaro) credo si sia di fronte ad un caso di estrema gravità.

Technorati , , ,

5 thoughts on “Ancora sul caso LiveLeak e la presunta censura di Google.

  1. Ciao Tommaso…ieri appena ho letto il tuo articolo (in mattinata) sono andato a controllare il file robots di LiveLeak (anche a me puzzava di inganno la cosa) e l'ho trovato come da te sopra riportato. Insomma, ieri mattina era già stato modificato (o forse è sempre stato cosi').

    Per chiarezza, va detto che il file robots di YouTube, ad esempio, si presenta cosi':

    User-agent: Mediapartners-Google*

    Disallow:

    User-agent: *

    Disallow: /profile

    Disallow: /results

    Disallow: /t/terms

    Disallow: /t/privacy

    Come si vede, per Google il Disallow non è seguito da nulla, così come nel robots di liveleak sopra riportato. Insomma, se il file è sempre stato cosi', allora si tratta di censura di Google. Se invece l'hanno modificato, allora è un altro discorso…

    Cia!

  2. Tommaso, dove hai letto che il robots.txt è stato modificato da LiveLeak? C'è qualcosa tipo waybackmachine che lo ha mirrorato nei giorni precedenti?

    Perchè se c'è allora possiamo capire, se non c'è… direi che è un problema di indeterminazione… oramai la scatola è aperta e se il gatto è vivo o è morto potrebbe dipendere dall'aver aperto la scatola.

  3. Senza scomodare Schrodinger, su Punto Informatico linkano un blog che dice di aver trovato il file robots.txt con le impostazioni per "escludersi" da google. Però tale notizia non è confermata…Come ho detto, ieri mattina il file era già cosi' come si presenta adesso, di più non saprei. Bisogna decidere di chi fidarsi :)

Leave a Reply

Your email address will not be published. Required fields are marked *

You may use these HTML tags and attributes: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <s> <strike> <strong>