Ho superato la curva della popolarità!

E che vuol dire?

Prendiamo una ricerca in Google, le pagine sono ordinate secondo un algoritmo che premia la popolarità del sito (in funzione del numero di altri siti che lo linkano ed altre caratteristiche, per approfondire [ikaro.net: I segreti del Site Ranking](http://www.ikaro.net/articoli/cnt/site_ranking-00115.html)).

Generalmente, avendo informazioni sulla popolarità di un sito (e quindi la frequenza con cui il sito è presente nei bookmark degli utenti, nel caso di del.icio.us), è possibile dare suggerimenti sensati ad i nuovi utenti.

La mia domanda era, è sensato rioganizzare la lista dei siti suggeriti in modo da premiare i siti che hanno tag simili a quelli dell’utente che compie la ricerca?

Beh, pare di si!

Il test avviene confrontando il vettore utente nello spazio dei tag, con modulo numero di href con tutti i vettori href sempre nello spazio dei tag, modulo numero di utenti.

Vengono selezionati i primi N candidati, confrantando l’insieme dei candidati con l’insieme degli href dell’utente si calcolano Precisione e Recupero.

Per prima cosa osserviamo come al variare della cardinalità dell’insieme di href suggeriti, il Recupero degradi più lentamente usando il prodotto scalare rispetto alla popolarità pura.

Recall e Cardinalità di pop contro dot

Analogamente possiamo osservare come anche la precisione della predizione sia leggermente migliore usando il prodotto scalare, in particolare nella zona iniziale, dove l’ordinamento per popolarità pura tende a mettere in coda molti elementi corretti che vengono invece salvati dall’ordinamento mediante prodotto scalare.

Precision and Recall di pop contro dot

Questo facendo un confronto diretto tra tag.

Appena avrò risolto qualche problemuccio con le performances dell’analisi, proverò ad estendere i tag dell’utente inserendo i tag degli utenti “vicini” pesati per “similarità”, nella speranza che questo migliori ulteriormente la qualità della predizione.

Questo articolo è stato pubblicato in Senza categoria e contrassegnato come da Matteo . Aggiungi il permalink ai segnalibri.