ARTICOLO
Marco Biffi, Alice Ferrari

Progettare e realizzare un «corpus» dell’italiano nella rete: il caso del «CoLIWeb»

All’interno delle varie fasi di realizzazione del VoDIM (Vocabolario dinamico dell’italiano moderno), che discende dalla ricerca effettuata per Prin specifici nel 2012 e nel 2015, si colloca la creazione di un corpus diacronico comprendente la lingua della scienza, dell’arte, della cucina, della politica, delle canzoni e delle opere liriche, della letteratura e della paraletteratura, dell’informazione, delle istituzioni. Per aumentarne il grado di rappresentatività è parso opportuno creare, in aggiunta, un corpus bilanciato delle dimensioni di 2 miliardi di parole riferito all’italiano più recente sulla base del web. Da qui è nato il progetto di realizzazione di un corpus con queste caratteristiche attraverso strumenti informatici che consentono di prelevare e catalogare ingenti quantità di testi dalla rete. L’articolo proposto si sofferma in particolare sul metodo di impostazione del programma di prelievo, basato sulle “etichette” del Grande dizionario italiano dell’uso di De Mauro, e sulla descrizione del primo prototipo di banca dati interrogabile.