Questo il titolo della mia tesi di laurea magistrale, discussa il 17/7/08 presso l’Università degli Studi di Torino (in Comunicazione nella società dell’informazione), di cui metto a disposizione, per i frequentatori del blog, una preview composta da indice, introduzione e primo capitolo. Chi volesse averne copia integrale, può trovarla qui
Archivio per motori di ricerca
SEO nell’evoluzione dei motori di ricerca e nel Web semantico
Posted in SEO, motori di ricerca, tesi di laurea con i tag motori di ricerca, tesi laurea, web semantico on Agosto 5, 2008 by andreasardocuil
Posted in motori di ricerca con i tag motori di ricerca, Google, cuil, concetti vs link on Luglio 29, 2008 by andreasardoCome molti già sapranno, è da qualche giorno online un nuovo motore di ricerca, CUIL, nato dall’iniziativa di alcuni ex dipendenti di Google (tra cui Tom Costello). Tra le novità più interessanti proposte, una SERP dall’impostazione logica diversa dai motori di ricerca più comuni, con funzionalità di clustering integrate e soprattutto un sistema di ranking non più basato sui link ma sul contenuto delle pagine.
Un approccio che dà grande importanza ai concetti, lavorando probabilmente su VSM e LSA opportunamente raffinati. Importante anche il fattore privacy: Cuil non traccia né gli IP né la navigazione dei propri utenti. Tale approccio, sicuramente “politically correct” potrebbe tuttavia incorrere in problemi nel momento in cui Cuil volesse effettuare una profilazione dell’utenza.
Comprensibilmente, i primi giorni hanno visto la proliferazione di illazioni a proposito, come la presunta dimensione dell’indice di CUIL (120 miliardi di pagine contro i 40 di Google).
Staremo a vedere
Latent Semantic Indexing
Posted in SEO, motori di ricerca con i tag Information retrieval, latent semantic indexing, LSI, motori di ricerca, SEO on Marzo 13, 2008 by andreasardoStudiando le tecniche dell’information retrieval applicate ai motori di ricerca, mi ha molto colpito questa del Latent Semantic Indexing, che è piuttosto conosciuta anche in ambito SEO. Il Latent Semantic Indexing infatti è una tecnica derivata dal modello a spazio vettoriale, che reperisce i termini all’interno dei testi creando delle mappe concettuali, delle “aree di significato” attraverso un’operazione di approssimazione matriciale, che permette di semplificare il retrieval sia dal punto di vista efficacia, sia dal punto di vista risorse.
Sul Web, LSI si rivela particolarmente utile per l’abilità dei motori di ricerca di dare un senso al contenuto di una pagina, non guardando solamente alla densità delle keyword utilizzate, ma in maniera più specifica alle associazioni tra keywords e keyphrases presenti per determinare il contesto della pagina web.
Il suo utilizzo è stato dunque un espediente fondamentale per svincolare la ricerca sul Web da un paradigma puramente testuale e legato alle keyword ed ai metatag, dandole un indirizzo semantico.
Una dimostrazione del suo funzionamento si può vedere in un interessante video (in inglese), disponibile su questa pagina.
Information Retrieval
Posted in motori di ricerca con i tag dark side of Google, Information retrieval, motori di ricerca on Febbraio 1, 2008 by andreasardoEcco qui una serie di risorse interessanti sull’IR. L’argomento, pur trattando questioni tecniche, non richiede una preparazione informatica mostruosa, ma può essere certamente utile per chi si occupa di motori di ricerca. Da qui infatti derivano le strutture alla base degli algoritmi. Interessante per chiunque, ma essenziale per chi vuole comprendere il funzionamento di un motore.
Il link di seguito conduce invece alla homepage di un recente libro, scritto dagli autorevoli Baez-Yates e Ribeiro-Neto, sull’argomento. Un paio di capitoli, indice e abstract sono scaricabili
Modern Information Retrieval – Addison Wesley Longman
Infine, da sottolineare il bel lavoro del gruppo Ippolita: un interessante saggio su Google, dal titolo “The dark side of Google”, in cui vengono criticate, con approccio scientifico, le verità assolute sul motore di Mountain View: è un punto di vista interessante, che parte da osservazioni dimostrabili. Scaricabile sul sito di Ippolita, oppure qui
A presto!
Andrea
quesito sul web semantico
Posted in motori di ricerca con i tag Berners-Lee, Daniel Read, motori di ricerca, web semantico, xml on Gennaio 21, 2008 by andreasardoL’xml è un’importante risorsa in direzione del web semantico immaginato di Berners-Lee. Leggendo articoli sull’argomento, mi è capitato un commento di Daniel Read, direttore dello sviluppo prodotto della AskJeeves, oggi semplicemente Ask, che afferma “Gli utenti si aspettano che il motore di ricerca legga nella loro mente”.
Oltre ad esempio al completamento automatico, o agli Adsense in ambito commerciale, quali altri strumenti (esistenti o non ancora introdotti) potrebbero essere secondo voi utili ai fini di una migliore interazione tra utente e information retrieval?


