|
Carla Marello (Università di Torino) Corpo a corpo con l’inglese della corpus linguistics, anzi, della linguistica dei corpora
La terminologia della linguistica dei corpora, a dispetto del latinismo corpus/corpora, è largamente dominata oggi dall’inglese per almeno due motivi: a) fa largo impiego di termini usati in linguistica computazionale, a sua volta estremamente anglicizzata b) i primi corpora e i più grandi, non legati alla produzione di un singolo autore, sono (stati) i corpora di lingua inglese e in Gran Bretagna o presso gli anglisti scandinavi si sono sviluppati gli studi più numerosi e vivaci di corpus linguistics. Di fronte a una diffusa tendenza a parlare di studi di corpus linguistics per studi fatti 30-40 anni fa, vorrei dire che se studi di linguistica quantitativa e computazionale degli anni Sessanta e Settanta si possono giustamente considerare studi di corpus linguistics, il termine tuttavia si è affermato in ambito scientifico solo venti anni fa. Occupandomi di corpora di italiano e dovendo per divulgazione didattica o per ricerca scrivere in italiano di linguistica dei corpora, mi sono trovata a riflettere sia sull’utilità dei prestiti italianizzati (tokenization/tokenizzazione) e dei prestiti non adattati come chunker, sia sull’opportunità di avallare discutibili traduzioni come corpus piano per plain, raw corpus, cioè non annotato, sia ancora sulla scomodità di non avere un aggettivo derivato (come per es. valenziale o generativo) che sostituisca il SP dei corpora, troppo corposo e comunque non facilmente precisabile come l’inglese (corpus-based, corpus-driven approach ). Ho intenzione di raggruppare i non moltissimi termini di linguistica dei corpora, osservare la corrispondente terminologia in altre lingue e vedere se da questo confronto scaturiscono soluzioni per l’italiano diverse dal prestito.
|
 |
|