Come Google legge il Flash

adobe flashChe Google avesse iniziato ad interessarsi di Flash lo avevo già fatto presente e che a me il Flash non piace pure. Tuttavia è innegabile che molti (troppi) siti facciano un uso sproporzionato di questa tecnologia e che sempre più contenuti in Flash iniziano a popolare le SERP di Google.

Stando a quando Google annunciò lo scorso anno:

“We’ve developed an algorithm that explores Flash files in the same way that a person would, by clicking buttons, entering input, and so on. Our algorithm remembers all of the text that it encounters along the way, and that content is then available to be indexed.”

C'è a questo punto da domandarsi come Google analizza e processa i filmati SWF per la loro inclusione negli indici. Infatti il processo di acquisizione delle informazioni è assai diverso da quanto non avvenga per un documento XHTML, dove la struttura (semantica o meno) è comunque chiara e ben definita. Vi sono meta tag, intestazioni, paragrafi … insomma tutto ha un senso logico anche ad occhio nudo.

Flash d'altro canto è un file multimediale e se lo si prova ad aprire con il blocco note non verranno fuori che una sfilza di caratteri assolutamente insensati.

Ovviamente tutti i dettagli di questo misterioso algoritmo sono tenuti ben segreti nei laboratori di Mountain View, ma Google non nasconde che il loro approccio è stato l'uso esclusivo delle librerie di ricerca per SWF messo a disposizione dalla stessa Adobe.
Queste librerie includono tra le altre cose un tool sviluppato in precedenza dalla Macromedia (che ricordo è stata la ditta fondatrice di Flash), il quale consente di leggere e analizzare il contenuto multimediale di questi file. Il tool era stato disegnato apposta per i motori di ricerca, affinchè questi potessero correttamente indicizzare i file multimediali.

Se Google faccia uso di questo tool o meno, certo non ci è dato saperlo, tuttavia risulta interessante darci uno sguardo, se non altro per capire cosa – eventualmente – Google potrebbe capire del nostro filmato.
In sostanza, prendiamolo come un tool di verifica, al pari di tanti altri on line che consentono di valutare la keyword density o estrarre testo per generare catene Marchov.

Il tool (gratuito) è un peletto nascosto dentro il mastodontico sito web della Adobe e richiede un Adobe ID per poter essere scaricato e ovviamente – manco a dirlo – siglare l'accordo di licenza. Se seguite il link, andate alla pagina dove potete inserire il vostro nome utente e password (se li avete già) per poter così procedere direttamente al download (ok grazie me lo potete dire dopo nei commenti) che farete una volta che vi sarà arrivata la mail che avete specificato per la creazione del vostro account Adobe (quindi non mettetene una inventata).

Una volta che avrete scaricato il file flash_search_sdk.zip estraetelo in una cartella di vostro piacimento e iniziate a fare dei test.

Il file per poter essere processato deve stare nella stessa cartella dove avete estratto il contenuto sopra, quindi aprite il command prompt, cambiate il path nella cartella con l'sdk e inserite il seguente comando swf2html nomefilefilmato > test.html per generare un file chiamato test contenente un output html con il testo e le altre informazioni che questo tool ha saputo ricavare dal vostro filmato.Il

Il tool esiste anche in versione Linux, ma non Mac (dannazione). Magari forse la stessa versione gira pure su OS X, ma non sono così tanto bravo da sapere come fare (se voi lo sapete, un commento è sempre ben accetto). Diversamente quando – in quelle rare occasioni – dovrò usarlo, mi accontenterò dei VmWare.

Non sarà il massimo della comodità, lo ammetto, ma sempre meglio che lavorare alla cieca e aspettare che Google indicizzi il nostro filmato con le keyword sbagliate!