MENU' DEL SITO
COLLABORAZIONI SCIENTIFICHE CON ALTRI ISTITUTI NELL'AMBITO DEL PROGETTO ANGUANA
...............................................................................................................................................................................
Descrizione del motore di ricerca semantico
Uno degli aspetti più rilevanti del portale, da un punto di vista tecnologico, è stato lo sviluppo del motore di ricerca. Nel portale, infatti, tramite la tassonomia, vengono indicizzati i contenuti web dei siti selezionati, che, a seguito di una interrogazione effettuata sul sistema mediante il motore di ricerca semantico, possono essere visualizzati e presentati in modo organizzato secondo la stessa struttura delle categorie della tassonomia.Per implementare il motore di ricerca semantico all’interno del portale di Anguana è stata utilizzatala tecnologia basata sulla piattaforma COGITO®; l’utilizzo di tale piattaforma e della tecnologia di analisi semantica per la ricerca di contenuti web a partire dal portale di Anguana, ha il duplice vantaggio di poter utilizzare il linguaggio naturale per effettuare le interrogazioni al sistema e la possibilità di interpretare il significato dei contenuti di un testo, superando così il vincolo e la limitatezza della ricerca per key-word, contrastando in tal modo il problema dell’eccesso di risposte non rilevanti. Il portale permette di raffinare i criteri di ricerca andando a selezionare e “restringere il campo” in base alle richieste, anche di tipo intuitivo (“semantic web”), da parte dell’utente.Il sito offre agli utenti un’interfaccia web di accesso al motore di ricerca semantico sui temi della montagna italiana, tramite l’albero delle categorie (tassonomia), sul quale sono indicizzate le risorse informative selezionate in Internet.
Livelli di indicizzazioneIl software utilizzato come motore di ricerca semantico permette l’indicizzazione del testo dei documenti su tre livelli:• full-text;• lessicale;• semantico.Nell’indicizzazione full-text il testo viene indicizzato sulle parole-chiave (keyword), dove una parola-chiave è una stringa di caratteri alfanumerici separata dalle altre stringhe del testo mediante separatori come lo spazio e la punteggiatura. Nessuna interpretazione del testo viene tentata: le parole-chiave vengono indicizzate letteralmente.Nell’indicizzazione a livello lessicale il testo viene sottoposto ad analisi grammaticale. Ciascun elemento della frase, anche composto da più parole, viene ricondotto ad un lemma del lessico della lingua di riferimento: le forme flesse dei verbi sono ricondotte all’infinito del verbo stesso, i plurali dei nomi e degli aggettivi al singolare e così via. Sono quindi indicizzati i lemmi, vale a dire le “voci del dizionario” espresse nel testo.Nell’indicizzazione a livello semantico il testo viene sottoposto ad un’analisi linguistica tale da determinare il significato più probabile di ogni termine espresso nel testo. Ciò è possibile grazie alla rete semantica immessa all’interno del software di sistema, caratterizzata da contenuti afferenti alla conoscenza generale delle lingua italiana e alla conoscenza specialistica del settore montano.I significati sono inseriti negli indici come riferimenti numerici (numeri identificativi) a nodi della rete semantica. Ciascun nodo della rete rappresenta un significato distinto, vale a dire un concetto che può essere pensato senza possibilità di confonderlo con un altro. Il nodo riporta i lemmi con cui il significato può essere espresso in un testo: l’indicizzazione a livello semantico, quindi, parte dai lemmi già individuati nel corso dell’indicizzazione a livello lessicale e risale da questi ai significati corrispondenti.Il motore di ricerca semantico sottopone dunque i documenti ad indicizzazione semantica, lessicale e full-text. Questo rende possibile la ricerca dei documenti su concetti, lemmi e parole-chiave o una combinazione di questi elementi e supporta richieste effettuate anche in linguaggio naturale, riconoscendo e interpretando il significato di una frase grazie alla base di conoscenza immessa come rete semantica nel software stesso.Effettuando una ricerca a partire dall’interfaccia front-end (pagina web del sito internet accessibile agli utenti), il sistema, dopo aver analizzato l’interrogazione dell’utente, risponde indicando uno o più link diretti a specifiche pagine web che trattano gli argomenti richiesti.
L’applicazione mette a disposizione degli utenti due modalità di ricerca:• ricerca libera, attraverso la quale gli utenti potranno inserire un contenuto da ricercare in linguaggio naturale;• ricerca guidata, in cui gli utenti potranno seguire un percorso di ricerca guidato attraverso le categorie.