Algoritmi di Google per l’indicizzazione di siti web: algoritmo HillTop

L’ALGORITMO “HILLTOP” COME NOVITA’ NEI FATTORI “OFF PAGE”

Un nuovo momento contraddistingue la storia di Google nella sua corsa ad ostacolare i siti spam: l’”Austin Update”.

A differenza del precedente Florida Update dove vi furono novità sostanziali e ripercussioni molto più considerevoli, nel febbraio del 2004 fa la sua apparizione l’ “Algoritmo HillTop”.

Chi inizia a parlare della necessità di Google di filtrare i siti spam e dare risultati più rilevanti per l’utente ponendo sempre più attenzione ai fattori “off page” e ai relativi criteri di importanza dei “link inbound” è Khrisna Barat (ingegnere di Google e creatore di Google news ) che insieme a George A. Mihaila pubblica nel 2002 “ When experts agree: using non-affiliated experts to rank popular topics”.

Khrisna Barat aveva già pubblicato “Improved algorithms for topic distillation in a hyperlinked environment” sulla filtrazione e raffinazione del topic di un documento e “The Term Vector Database: fast access to indexing terms for Web pages” sulla creazione di vettori di termini.

Nel documento del 2002 afferma: “ il PageRank ha il limite di non poter distinguere fra pagine autorevoli in generale e pagine autorevoli relativamente all’argomento della ricerca. In particolare un sito autorevole in generale può contenere una pagina che soddisfa una certa query ma che non è autorevole rispetto all’argomento”. Google difatti se interrogato su keywords molto popolari restituiva un altissimo numero di documenti a volte non rilevanti, si doveva risolvere questo problema che aveva radici nell’ “Information Retrieval” classica dove non si teneva conto dell’autorevolezza della fonte e lasciava campo aperto a documenti poco utili.

Se ad esempio un sito con un alto PageRank in quanto “popolare” e quindi con molti link inbound tratta vari argomenti, ciò non significa che per ognuno di essi sia autorevole allo stesso modo.

L’algoritmo HillTop va a correggere questo possibile errore del PageRank. Quest’ultimo pone attenzione alla qualità e quantita di link che una pagina web riceve, l’algoritmo HillTop valuta solamente gli inbound link da pagine considerate “esperte” sulle ricerche effettuate dall’utente.

Le prime operazioni dell’algoritmo sono per creare una lista di documenti “esperti” in quel tema per poi distinguere i link più “considerevoli” alle keywords che l’utente cerca per cosi successivamente fare una scelta di posizionamento.

Hilltop introduce il concetto di “expert sites”, siti con PageRank elevato e che trattano un argomento simile. Difatti assegnerà ai documenti in rete dei punteggi di autorevolezza aggiustando i risultati ottenuti con gli altri parametri usati da Google, così guidando i risultati finali verso una migliore corrispondenza tra le chiavi di ricerca e le aspettative degli utenti.

Per un corretto funzionamento tale algoritmo ha comunque la necessità di considerare un alto numero di “documenti esperti” in caso contrario il suo utilizzo è inefficace. Ciò non rappresenta un limite in quanto su chiavi di ricerca non molto popolari non ci sarà la necessità nell’accuratezza dei risultati.

Il problema è ora capire in modo più specifico come questo algoritmo riesce a selezionare i documenti esperti.

Il primo requisito che deve rintracciare HillTop è che i link non provengano da siti affiliati. Sono ritenuti tali se si verifica almeno una delle due circostanze:

  • I due siti dividono gli ultimi tre ottetti di un indirizzo IP
  • La sezione più a destra e non generica del nome del dominio è la stessa.

Prima di rintracciare i documenti esperti HillTop contraddistingue con un indice i siti ritenuti affiliati, questo per verificare velocemente se sono associati. I link in uscita sono confrontati con l’indice di affiliazione, solo se gli outbound link non sono diretti verso siti non affiliati sono considerati come pagine “esperte”.

Dopo questo controllo sulle affiliazioni si crea un indice di documenti “esperti”. Quest’indice viene creato attraverso il database del motore e estraendone i documenti considerati buone sorgenti di link tematizzati.

Hilltop tiene inoltre in considerazione anche degli argomenti trattati delle pagine verso cui i link puntano, questi devono essere omogenei.

L’algoritmo HillTop ha anche la necessità di ordinare i risultati, nel far questo tiene in considerazione solo di alcune parti di una pagina web che chiama “frasi chiave” (da non confondere con le chiavi di ricerca digitate dagli utenti) e corrisponde ad una sezione del testo e della struttura della pagina web che qualifica i link in uscita.

Il tag title ad esempio viene aggregato ad ogni link in uscita (outbound link), il testo in H1 viene aggregato ad ogni outbound link fino a quando non ne viene riscontrato uno della stessa o maggiore importanza, l’anchor text viene aggregato unicamente al link corrispondente.

L’algoritmo non fa altro che valutare la lista di pagine web “esperte” che risultano considerevoli rispetto ad una ricerca effettuata nei motori e ciò risulta se è presente almeno un link che contiene tutti i termini di ricerca nelle “frasi chiave” che lo qualificano.

Il punteggio alle pagine web esperte sarà assegnato in base al numero e al tipo di “frasi chiave” (tag title, H1, H2, H3, anchor text, ecc…) comprendenti i termini di ricerca.

1 commento

Lascia un Commento

Vuoi partecipare alla discussione?
Sentitevi liberi di contribuire!

Lascia un commento