Le stop word ovvero cosa i motori di ricerca fan finta di non vedere

http://www.fromzerotoseo.com/wp-content/uploads/2009/01/200984_sign_4_stop.jpg

Per la cronaca, ho appena passato l'esame di teoria di scuola guida :)

Qualche secondo fa stavo leggendo un articolo sul blog di tagliaerbe, parlava di come le parole ” clicca qui “ non siano indicizzabili e sono stato illuminato :)

Fino ad oggi non avevo mai sentito parlare di stop words ovvero quelle parole che per una serie di motivi non vengono più indicizzate, un esempio che ho subito provato a fare è stato cercare ” clicca qui per continuare a leggere ” a occhio si vede che i risultati sono diversi da quelli che solitamente troviamo.

Qual’è il motivo? Presumo che il motivo principale sia dato dal fatto che certe parole siano troppo utilizzate per compiere le stesse azioni all’interno di diversi blog ma con la stessa piattaforma cms (es wordpress, joomla ecc..).

Quindi cosa dobbiamo evitare? Come ho già detto le stop word sono parole comuni dei cms in generale che si usano per svolegere azioni comuni, quindi io eviterei di mettere a un post come titolo “clicca qui per continuare a leggere” perchè molto probabilmente non sarà indicizzato come crediamo.

Cos’è il file stopwords.txt? Alcuni siti web benchè non siano motori di ricerca, utlizzano un file chiamato stopwords.txt (il nome è a piacimento), in cui inseriscono una lista di parole che non è possibile ricercare all’interno del sito essendo parole troppo comuni che farebbero solo perdere del tempo al server.

Concludedo… Quando scriviamo un articolo dobbiamo usare un linguaggio comune (ma non troppo) e allo stesso tempo “ricercato” per non incappare nell’uso delle stop word e garantre una buona indicizzazione dell’articolo pubblicato.

Leave a Reply