Banche dati, corpora e archivi testuali

Italiano scritto e parlato

AN.ANA.S_MT (ANnotazione e ANAlisi Sintattica MulTilingue) > collegamento non attivo al 22/9/2023
Miriam Voghera, Università degli Studi di Salerno (coordinatore)
Corpus di italiano, inglese e spagnolo parlato, trascritto e annotato sintatticamente tramite la DTD (Document Type Definition) AN.ANA.S 4. Consta di circa 21.300 parole tratte da conversazioni spontanee e dialoghi elicitati. Alcuni materiali possono essere scaricati e consultati.

API (Archivio del Parlato Italiano) > collegamento non attivo al 22/9/2023
Federico Albano Leoni, Università degli Studi di Napoli Federico II (coordinatore)
Corpus di italiano parlato; contiene alcune tipologie di testi orali raccolti a Napoli, Bari, Firenze e Pisa, in formato audio e in trascrizione ortografica. I testi trascritti sono stati in parte annotati e analizzati. I materiali possono essere scaricati e consultati gratuitamente.

BADIP (BAnca Dati dell'Italiano Parlato) > collegamento non attivo al 22/9/2023
Daniele Bellini e Stefan Schneider, Karl-Franzens-Universität Graz
Contiene la versione online del corpus su cui è basato il Lessico di frequenza dell'italiano parlato (LIP), opera diretta da Tullio De Mauro e realizzata in collaborazione con la Fondazione IBM Italia nel 1990-1993. È una raccolta annotata di testi di italiano parlato; si compone di quasi 490.000 parole e 469 testi, appartenenti a varie tipologie di parlato, raccolti in quattro città (Milano, Firenze, Roma, Napoli).

BASILI&LIMM (BAnca dati degli Scrittori Immigrati in Lingua Italiana e della Letteratura Italiana della Migrazione Mondiale)
Armando Gnisci
Comprende scrittrici e scrittori migranti translingui e di nuova generazione.

CLIPS (Corpora e Lessici dell'Italiano Parlato e Scritto)
Federico Albano Leoni, Università degli Studi di Napoli Federico II
Corpus di italiano parlato, basato su una raccolta di testi di parlato radiotelevisivo, dialogico, letto, telefonico; il corpus è stratificato anche dal punto di vista regionale, sociale, stilistico. È liberamente consultabile online previa registrazione gratuita.

CODIS (COrpus Dinamico dell'Italiano Scritto)
Rema Rossini Favretti, Alma Mater Studiorum - Università di Bologna
Corpus adattivo di italiano scritto; contiene 130 milioni di parole da testi di narrativa, prosa accademica, prosa giuridica, stampa. È liberamente consultabile online.

CODIT (Corpus diacronico dell’italiano)
Corpus diacronico di italiano scritto che copre un periodo che va dal XIII secolo al 1947, cronologicamente suddiviso in cinque sottocorpora. Ogni sottocorpus contiene testi appartenenti a vari generi di scritto (saggio, prosa letteraria, poesia, lettera, testo scientifico, teatro).

CoLFIS (Corpus e Lessico di Frequenza dell'Italiano Scritto)
Pier Marco Bertinetto, Scuola Normale Superiore di Pisa (coordinatore)
Banca dati lessicale di italiano scritto; consta di oltre tre milioni di parole ordinate sia per lemmi sia per forme. È liberamente consultabile online.

CorDIC (Corpora Didattici Italiani di Confronto)
LABLITA (Laboratorio Linguistico Italiano dell'Università di Firenze)
Corpora di italiano scritto e parlato da confrontare a scopo didattico; contiene circa un milione di parole divise tra testi e parlato spontaneo. È liberamente consultabile online.

CORIS (COrpus di Riferimento dell'Italiano Scritto)
Rema Rossini Favretti, Alma Mater Studiorum - Università di Bologna
Corpus di italiano scritto; contiene 130 milioni di parole da testi di narrativa, prosa accademica, prosa giuridica, stampa. È liberamente consultabile online.

DiaCORIS (COrpus Diacronico di Riferimento dell'Italiano Scritto)
Rema Rossini Favretti, Alma Mater Studiorum - Università di Bologna
Corpus diacronico dell'italiano scritto, comprendente testi prodotti tra il 1861 e il 1945. È liberamente consultabile online.

Gra.fo (Grammo-foni. Le soffitte della voce) > collegamento non attivo al 22/9/2023, archivio in ristrutturazione
Pier Marco Bertinetto, Scuola Normale Superiore di Pisa (coordinatore); Silvia Calamai, Università degli Studi di Siena (coordinatore)
Banca dati di materiale sonoro raccolto dagli anni '60 a oggi; comprende oltre 2800 ore di parlato, catalogate per argomento e varietà linguistica. È liberamente consultabile online.

IPIC (Information Structure Database) > collegamento non attivo al 22/9/2023
Emanuela Cresti, LABLITA (Laboratorio Linguistico Italiano dell'Università di Firenze)
Corpus testuale di italiano parlato; contiene trascrizioni e registrazioni ed è annotato su più livelli. È liberamente consultabile online.

KIParla
Caterina Mauri (Università di Bologna), Eugenio Goria, Silvia Ballarè e Massimo Cerruti (Università di Torino)
Corpus di parlato registrato a Bologna e a Torino; comprende vari tipi d'interazione verbale fra parlanti con differente profilo sociolinguistico. I materiali sono consultabili in formato audio e in forma di trascrizione testuale allineata.

LIS (Lessico dell'Italiano Scritto)
Accademia della Crusca
Banca dati interrogabile che raccoglie 25 milioni di occorrenze distribuite tra 1861 e 2001. Rappresenta un adattamento del DiaCORIS funzionale all'inserimento nel portale VIVIT. È liberamente consultabile online.

Metamotore - Lessico dell'Italiano Scritto, Televisivo, Radiofonico
Accademia della Crusca
Motore di ricerca che consente di interrogare contemporaneamente le tre banche dati (LIS, LIR, LIT) dell'Accademia della Crusca, per ottenere risultati di spettro più ampio e completo sulla lingua italiana contemporanea.

MIDIA (Morfologia dell'Italiano in DIAcronia)
Paolo D'Achille, Università degli Studi Roma Tre (coordinatore)
Corpus di testi scritti italiani che spazia dal XIII al XX secolo e comprende circa 7,5 milioni di occorrenze. È liberamente consultabile online.

ONLI (Osservatorio Neologico della Lingua Italiana)
Giovanni Adamo, Istituto per il Lessico Intellettuale Europeo e Storia delle Idee; Valeria della Valle, Sapienza - Università di Roma
Banca dati di neologismi basata sullo spoglio dei principali quotidiani nazionali e locali, attiva dal 2012. È liberamente consultabile online.

Parlaritaliano.it (Corpora)
Autori vari
Raccolta di corpora di italiano parlato curati e messi a disposizione dagli studiosi che hanno aderito al progetto Parlare italiano. Tutti sono liberamente consultabili online e/o disponibili per il download.

PEC (PErugia Corpus)
Stefania Spina, Università per Stranieri di Perugia
Corpus di riferimento interrogabile, composto da circa 26 milioni di parole in italiano contemporaneo scritto e parlato, diviso in dieci sezioni. È liberamente consultabile online.

QALL-ME (Question Answering Learning technologies in a multiLingual and Multimodal Environment) > collegamento non attivo al 22/9/2023
Fondazione Bruno Kessler
Raccolta di trascrizioni (e registrazioni) di italiano parlato (oltre a inglese, spagnolo e tedesco); consta di più di 15000 parole relative al turismo. È disponibile per il download.

ParlaTO - Voci da Torino
Massimo Cerruti, Università di Torino; Silvia Ballarè, Università di Bologna
Corpus di parlato spontaneo raccolto a Torino, costituito da interviste semistrutturate a parlanti di diversa provenienza geografica e diversa collocazione sociale; è arricchito da una serie di metadati relativi alle caratteristiche socio-demografiche degli informatori ed è accessibile in formato sia testuale sia sonoro.

VoLIP (Voce del LIP)
Risorsa linguistica che permette di interrogare il corpus LIP (Lessico di frequenza dell’italiano parlato, raccolto sotto la direzione di Tullio De Mauro; ca. 500.000 occorrenze). I materiali testuali ricercati sono liberamente consultabili in formato audio con trascrizione ortografica allineata.

Italiano antico

Archivio Datini
Opera del Vocabolario Italiano
Corpus lemmatizzato del carteggio di Francesco Datini (1335-1410). Si compone di quasi 150.000 lettere ed è liberamente consultabile online.

ArTeSiA (Archivio Testuale del Siciliano Antico)
Mario Pagano, Università degli Studi di Catania (coordinatore); Opera del Vocabolario Italiano
Archivio testuale costituito da circa 300 testi in siciliano di epoca medievale, per un totale di più di un milione di occorrenze. È liberamente consultabile online.

CEOD (Corpus Epistolare Ottocentesco Digitale)
Massimo Palermo, Università per Stranieri di Siena (coordinatore)
Corpus epistolare costituito da circa 1350 lettere di 75 scriventi diversi, di varia estrazione sociale. È liberamente consultabile online.

CLaVo (Corpus dei Classici Latini Volgarizzati)
Scuola Normale Superiore di Pisa; Opera del Vocabolario Italiano
Banca dati interrogabile contenente 89 testi, per complessive circa 2,2 milioni di occorrenze, di latino tradotto. È liberamente consultabile online.

Corpus OVI dell'Italiano antico
Opera del Vocabolario Italiano
Raccolta completa dei testi italiani antichi resi accessibili dall'Opera del Vocabolario Italiano, ricca di 23 milioni di occorrenze per più di 450.000 forme grafiche distinte. È liberamente consultabile online.

CT (Corpus Taurinense)
Manuel Barbera, Università degli Studi di Torino; Carla Marello, Università degli Studi di Torino
Corpus di testi fiorentini del XIII secolo, dotato di più di 250.000 occorrenze; è ordinato per lemmi, parti del discorso, genere letterario e non solo. È liberamente consultabile online.

DiVo (Corpus del Dizionario dei Volgarizzamenti)
Opera del Vocabolario Italiano
Corpus comprendente 168 testi in volgare variamente indicizzati, per un totale che supera i sei milioni di occorrenze. È liberamente consultabile online.

ReMediA (Repertorio di Medicina Antica)
Opera del Vocabolario Italiano
Corpus in allestimento di testi medico- scientifici antichi, nelle diverse lingue romanze o in volgarizzamenti dal latino. È liberamente consultabile online.

TLIO (Corpus del Tesoro della Lingua Italiana delle Origini)
Opera del Vocabolario Italiano
Corpus testuale assai ricco, con più di 2000 testi contenuti, la cui opera di lemmatizzazione procede tuttora. È liberamente consultabile online.

TRIARS (Terza Rima Informatizzata per l'Analisi Metrica e Sintattica)
Università di Firenze, DILEF, Laboratorio di Informatica Umanistica
Consente di eseguire ricerche stilistiche sulla terza rima, incrociando dati relativi al ritmo e alla sintassi di testi immagazzinati nel database. Al momento, è possibile avviare ricerche sul testo della Commedia di Dante Alighieri, grazie al contributo dell’Archivio Metrico Italiano e di DanteSearch, per quanto riguarda rispettivamente i dati sul ritmo e la sintassi dell’opera dantesca.

AGLIO (Atlante Grammaticale della Lingua Italiana delle Origini)
Opera del Vocabolario Italiano
Banca dati che permette ricerche di fonologia e morfologia storica sulla base di dati dell’OVI e in particolare il sottocorpus costituito dai testi significativi (TS).

Storia della lingua italiana

e-Leo (Archivio digitale di storia della tecnica e della scienza)

Biblioteca Comunale Leonardiana di Vinci

Raccolta completa delle edizioni delle opere di Leonardo a partire dal 1651

Le Lettere di Alessandra Macinghi Strozzi
UniFi, DILEF - Laboratorio di Informatica Umanistica
Versione informatica della nuova edizione delle Lettere di Alessandra Macinghi Strozzi [O. BERSANO, Studi filologico-linguistici sul fiorentino argenteo. Le Lettere di Alessandra Macinghi ai figli esuli Filippo, Lorenzo e Matteo Strozzi (sec. XV), tesi di dottorato, Università degli Studi di Firenze-Rheinische Friedrich-Wilhelms-Universität Bonn, a.a. 2021-2022], consultabile e interrogabile in modo integrato al Glossario delle Lettere, nel quale sono raccolte le voci più significative del repertorio lessicale dell’Epistolario.
- Carteggio
- Glossario

MIV 17 (Manoscritti Italiani Volgari del XVII secolo)

Università degli Studi di Firenze, DILEF, Laboratorio di Informatica Umanistica
Il progetto MIV17 si propone di ricostruire una parte del patrimonio culturale manoscritto secentesco italiano, partendo da Firenze come primo caso di studio. Viene qui presentata, in versione informatica, una raccolta di più di cinquemila record bibliografici di manoscritti secenteschi attualmente conservati in cinque delle più importanti biblioteche fiorentine: la Biblioteca Nazionale Centrale, la Riccardiana, la Marucelliana, la Moreniana e la Medicea-Laurenziana.

Italiano di apprendenti

DILS (Dialoghi in Italiano Lingua Straniera)
Renata Savy, Università degli Studi di Salerno (coordinatore)
Corpus costituito da nove dialoghi tra parlanti stranieri in italiano, etichettanti secondo lo schema di annotazione PraTiD. È disponibile per il download.

LIPS (Lessico Italiano Parlato da Stranieri)
Massimo Vedovelli, Università per Stranieri di Siena (coordinatore)
Raccolta di testi dalle prove d'esame "Certificazione di Italiano come Lingua Straniera"; consta di 2198 prove, divise secondo il genere testuale a cui appartengono. È disponibile per il download.

VALICO (Varietà Apprendimento Lingua Italiana Corpus Online)
Manuel Barbera, Università degli Studi di Torino; Carla Marello, Università degli Studi di Torino
Banca dati interrogabile per parte del discorso e tipo testuale; mostra come studenti di varie età e lingue madri scrivono in italiano. È liberamente consultabile online.

VINCA (Varietà di Italiano di Nativi Corpus Appaiato)
Manuel Barbera, Università degli Studi di Torino; Carla Marello, Università degli Studi di Torino
Corpus di testi, didattici e non, di italiani nativi; nato come corpus monitor di VALICO, ha assunto poi vita autonoma. È liberamente consultabile online.

Italiano giornalistico

Archivio storico de «La Repubblica»
Raccolta non indicizzata di articoli dal 1984 a oggi. È liberamente consultabile online.

Archivio storico de «La Stampa»
Archivio del materiale completo diviso in due parti: 1867-2005 e 2005-oggi. È interrogabile per edizione, data, argomento, autore. È liberamente consultabile online.

Archivio storico del «Corriere della Sera»
Raccolta dell'intero materiale del quotidiano, dal 1876 a oggi; interrogabile per parole chiave, autore, argomento e non solo. È consultabile previa sottoscrizione a pagamento.

Corpus «La Repubblica»
Scuola Superiore di Lingue Moderne per Interpreti e Traduttori di Bologna
Corpus di testi dal quotidiano omonimo pubblicati tra il 1985 e il 2000; lemmatizzato, categorizzato e indicizzato per parti del discorso. È liberamente consultabile online previa registrazione gratuita.

CONTRAST-IT
Anna Maria De Cesare, Università di Basilea
Corpus comparabile multilingue di circa 1,5 milioni di parole; comprende articoli pubblicati tra il 2011 e 2015 in quotidiani online redatti in cinque lingue (italiano, spagnolo, francese, tedesco, inglese). Il corpus è liberamente accessibile in rete.

COMPARE-IT
Anna Maria De Cesare, Università di Basilea
Corpus comparabile monolingue di circa 550.000 parole; comprende articoli pubblicati tra il 2011 e 2013 nei principali quotidiani online redatti in lingua italiana in tre paesi diversi (Italia, Svizzera e Canada). Il corpus è liberamente accessibile in rete.

I-CAB (Italian Content Annotation Bank)
Fondazione Bruno Kessler
Corpus annotato di 525 articoli dal quotidiano locale "L'Adige", per un totale di circa 180.000 parole. È disponibile per il download dietro richiesta scritta.

Italiano di Internet

Corpus di conversazioni da chat-line in lingua italiana
Èulogos, Intratext
Corpus testuale che ammonta a circa 850.000 occorrenze; contiene comunicazioni in chat tra utenti Internet di età inferiore a 30 anni. È liberamente consultabile online.

NUNC (Newsgroups UseNet Corpora)
Manuel Barbera, Università degli Studi di Torino; Carla Marello, Università degli Studi di Torino
Banca dati lessicale basata sulle conversazioni ospitate dai forum telematici detti "newsgroups"; è divisa per argomenti di conversazione e si estende su cinque lingue. È liberamente consultabile online.

PAISÀ (Piattaforma per l'Apprendimento dell'Italiano Su corpora Annotati)
Sergio Scalise, Alma Mater Studiorum - Università di Bologna (coordinatore); Vito Pirrelli, Istituto di Linguistica Computazionale «Antonio Zampolli» di Pisa (coordinatore)
Corpus testuale composto da una collezione di circa 380.000 documenti italiani tratti da Internet. È liberamente consultabile online e disponibile per il download.

RIDIRE (RIsorsa Dinamica Italiana di REte)
Emanuela Cresti, SILFI (Società Internazionale di Linguistica e Filologia Italiana) (coordinatore)
Corpus lessicale dinamico pensato per riflettere l'utilizzo della lingua italiana nel web in vari contesti, annotato e indicizzato. È liberamente consultabile online.

WaCky (Web-as-Corpus kool yinitiative)
Scuola Superiore di Lingue Moderne per Interpreti e Traduttori di Bologna (coordinatore)
Corpora testuali in quattro lingue di circa due miliardi di parole ciascuno, lemmatizzati e indicizzati. Sono disponibili per il download dietro richiesta o liberalmente consultabili online a questo indirizzo.

Italiano tecnico

Italiano accademico

Athenaeum
Manuel Barbera, Università degli Studi di Torino; Carla Marello, Università degli Studi di Torino
Corpus testuale che riflette la produzione scritta di un'Università italiana; contiene principalmente materiale tratto dal periodico universitario, da mail e circolari accademiche. È liberamente consultabile online.

Italiano istituzionale, giuridico e amministrativo

bistro (Sistema informativo per la terminologia giuridica)
Accademia Europea di Bolzano
Banca dati terminologica contenente circa 50.000 termini del linguaggio giuridico-amministrativo italiano (con i rispettivi corrispondenti in tedesco e ladino), austriaco, tedesco e svizzero. È liberamente consultabile online.

BoLC (Bononia Legal Corpus)
Rema Rossini Favretti, Alma Mater Studiorum - Università di Bologna
Corpus testuale volto all'analisi delle forme linguistiche utilizzate in ambito legislativo, giuridico e amministrativo; formato da subcorpora paralleli in lingua italiana e inglese. È liberamente consultabile online.

CATEx (Computer Assisted Terminology Extraction)
Accademia Europea di Bolzano
Corpus linguistico e terminologico che consta di circa cinque milioni di parole; comprende testi di legge italiani con le relative traduzioni in tedesco. È liberamente consultabile online.

Corpus Senato della Repubblica (Leggibilità del linguaggio politico parlamentare)
Maria Emanuela Piemontese, Sapienza - Università di Roma
Corpus di testi tratti dagli atti del Senato della Repubblica durante la XIV e XV legislatura; i testi sono analizzati solo quantitativamente (misurazione delle variabili lessicali e sintattiche), non secondo la comprensibilità. È disponibile per il download.

DOGI (Dottrina Giuridica: Abstract di articoli giuridici italiani)
CNR - IGSG Istituto di Informatica Giuridica e Servizi Giudiziari)
Banca dati di riferimenti bibliografici e abstract di articoli pubblicati nelle riviste giuridiche italiane. La banca dati è un prodotto delle attività di ricerca condotte dall'Istituto di Informatica Giuridica e Sistemi Giudiziari del Consiglio Nazionale delle Ricerche (IGSG-CNR) in tema di accesso e diffusione dell'informazione giuridica.

EuroParl (European Parliament Proceedings Parallel Corpus)
Philipp Koehn, University of Edinburgh
Corpus testuale che raccoglie gli atti del Parlamento Europeo tra il 1996 e il 2011 tradotti in 21 lingue. È disponibile per il download.

EUSLEX («European Union Secondary Legislation» Corpora Collection)
Maurizio Gotti, Università degli Studi di Bergamo (coordinatore); Scuola Superiore di Lingue Moderne per Interpreti e Traduttori
Corpus testuale bilingue italiano-inglese basato sull'archivio EUR-Lex dei testi di legge prodotti dall'Unione Europea, limitatamente al periodo 1999-2002. È liberamente consultabile online.

IATE (InterActive Terminology for Europe)
TermCoord (Terminology Coordination Unit of the European Parliament)
Banca dati terminologica multilingue dell'Unione Europea. Contiene più di 8,5 milioni di entrate terminologiche relative a diversi ambiti e argomenti, nelle 25 lingue ufficiali dell'UE. È liberamente consultabile online.

IS-LeGI (Indice Semantico del Lessico Giuridico Italiano)
Francesco Romano, Istituto di Teoria e Tecniche dell'Informazione Giuridica
Banca dati semantico-lessicale attiva dal 2008, divisa in legislazione, prassi giuridica, dottrina giuridica. È liberamente consultabile online.

LLI (Lingua Legislativa Italiana)
ITTIG - Istituto di Teorie e Tecniche dell'Informazione Giuridica
Il corpus contiene le opere legislative fondamentali, che, salvo per il più antico, sono uscite dal secolo XVIII: vi sono compresi tutti i codici dell’Italia unita sia in vigore che abrogati, i più importanti dei codici preunitari, tutte le costituzioni in lingua italiana dalla fine del Settecento, le leggi costituzionali successive alla Costituzione del 1947, tutti gli statuti regionali, e altre leggi, testi unici e codici in ragione di una loro importanza valutata caso per caso.

Risorse terminologiche per l'italiano istituzionale
REI (Rete per l'eccellenza dell'italiano istituzionale)
Raccolta di glossari, schede terminologiche. I materiali sono disponibili per il download e liberamente consultabili online.

PoliModal Corpus
Il corpus include le trascrizioni di 56 interviste della tribuna politica televisiva Mezz'ora in più (Rai 3) andate in onda dal 24 settembre 2017 al 14 gennaio 2018.

Italiano medico

MeSH (Medical Subject Headings); versione italiana
U.S. National Library of Medicine; versione italiana a cura dell'Istituto Superiore di Sanità
Thesaurus dei termini del linguaggio medico inglese e banca dati parallela tradotta in italiano. Entrambi sono liberamente consultabili online.

UMLS (Unified Medical Language System)
U.S. National Library of Medicine
Software per l'analisi del linguaggio medico composto da un metathesaurus, una banca dati semantica e un lessico in lingua inglese. È disponibile per il download dietro richiesta scritta.

Italiano trasmesso

CPT (Corpus di Parlato Telegiornalistico. Anni Sessanta vs. 2005)
Corpus di trascrizioni annotate tratte dal TG2, accompagnate dalle rispettive registrazioni audio, per un confronto diacronico. È disponibile per il download.

DIA-LIT (Lessico Italiano Televisivo in DIAcronia)
Accademia della Crusca
Banca dati audiovisiva basata sulla struttura del LIT; consta di 40 ore di trasmissioni mandate in onda tra il 1954 e oggi. È liberamente consultabile online.

LIR (Lessico dell'Italiano Radiofonico)
Accademia della Crusca
Corpus di 90 ore di parlato trasmesso (quasi un milione di occorrenze), trascritto e diviso per genere radiofonico e tipologica comunicativa. È liberamente consultabile online.

LIT (Lessico dell'Italiano Televisivo)
Accademia della Crusca
Banca dati audiovisiva interrogabile, che raccoglie 168 ore di trasmissioni prelevate nel corso del 2006; dotato di trascrizioni annotate per parlante, genere, tipologia comunicativa. È liberamente consultabile online.