Linguistic Resources for Natural Language Processing


Academic year 2023/2024

Course ID
Cristina Bosco (Lecturer)
Viviana Patti (Lecturer)
Degree course
Language Technologies and Digital Humanities
1st year
Teaching period
First semester
Course disciplinary sector (SSD)
INF/01 - informatics
Formal authority
Type of examination

Basic computer skills and a general knowledge of textual markup tools and models may be helpful, but not essential.

Sono utili, anche se non indispensabili, conoscenze informatiche di base e familiarità con strumenti e modelli di marcatura del testo.


Sommario del corso


Course objectives

The course aims to provide the basic notions of computational linguistics and Natural Language Processing (NLP), mostly focusing on linguistic resources. It introduces the main tasks and the historical perspective where resources are collocated (from rule-based to data-driven approaches to machine learning and neural networks). Referring to the scenario of the large variety of existing resources and providing several examples, the methodology for the development of different types of resources is investigated to be integrated into the background of students interested in language technologies.

L'insegnamento si propone di fornire le nozioni di base della linguistica computazionale e dell'elaborazione del linguaggio naturale (NLP), concentrandosi principalmente sulle risorse linguistiche. Introduce i principali task di NLP e la prospettiva storica in cui vengono collocate le risorse (dagli approcci basati sulle regole, a quelli basati sui dati, all'apprendimento automatico e alle reti neurali). Facendo riferimento allo scenario della grande varietà di risorse esistenti e fornendo diversi esempi, la metodologia per lo sviluppo di vari tipi di risorse verrà esaminata ed integrata nel background di studenti e studentesse interessati alle tecnologie del linguaggio.


Results of learning outcomes

Students will have the opportunity to improve their knowledge and understanding of linguistic resources, describe them by correctly using the related terminology and select the resources for different tasks and typologies. They will try and test tools to build and validate resources in different settings, acquire the ability to collect and annotate them, calculate the disagreement between annotators, and create diagrams for data representation.

Gli studenti e le studentesse avranno l'opportunità di conoscere e comprendere le risorse linguistiche, di descriverle utilizzando la terminologia appropriata e scegliere le risorse in base al task e alla tipologia. Potranno provare e testare strumenti per costruire e convalidare le risorse in diversi contesti, acquisiranno la capacità di raccoglierle e annotarle, di calcolare il disaccordo tra annotatori, e creare diagrammi per la rappresentazione dei dati.



We will introduce the resources used in the NLP pipeline for morpho-syntactic analysis (text segmentation and tokenization, morpho-syntactic processing and part of Speech tagging, syntactic parsing) and in particular treebanks, those exploited in semantic analysis (distributional semantics, ontology learning, open information extraction, latent semantic analysis) and pragmatic analysis (sentiment analysis). We will focus on the steps for the creation of resources (collection, selection, annotation, analysis and inter-annotator agreement measures) and challenges to be addressed (ambiguity, genre variation, multilingualism, bias, variety of formats), but also on the steps involved in the evaluation of the resources within the context of evaluation campaigns for NLP.
 Finally, practical and ethical considerations in the effective use of resources (datasets, lexicons, models) will be also presented and discussed proposing ethics statements about tools to navigate (research choices and communicative implications) and analyzed data (What is a Research Ethics Statement and Why does it Matter?).
A practical counterpart of the course will give students the opportunity to test tools to build and validate resources in different settings (collecting and annotating a linguistic resource, calculating disagreement, building diagrams for representing data), while practical exercises will be assigned for testing their ability in these tasks.

Presenteremo le risorse utilizzate nella pipeline di NLP per l'analisi Morpho-sintattica (segmentazione e tokenizzazione del testo, elaborazione Morpho-sintattica e part of Speech tagging, analisi sintattica) e in particolare treebanks, quelle sfruttate nell'analisi semantica (distributional semantics, ontology learning, open information extraction, latent semantic analys) e analisi pragmatica (sentiment analysis). Ci concentreremo sulle fasi per la creazione di risorse (raccolta, selezione, annotazione, analisi e misure di accordo inter-annotatore) e le sfide da affrontare (ambiguità, variazione di genere testuale, multilinguismo, bias, varietà di formati), ma anche sulle fasi di valutazione delle risorse nell'ambito delle campagne di valutazione di NLP. Infine, saranno presentate e discusse anche considerazioni pratiche ed etiche nell'uso efficace delle risorse (dataset, lessici, modelli) proponendo considerazioni etiche sugli strumenti di navigazione (scelte di ricerca e implicazioni comunicative) e dati analizzati (Che cosa è una considerazione etica di ricerca e perché importa?).
Una controparte pratica del corso darà agli studenti ed alle studentesse l'opportunità di testare strumenti per costruire e convalidare le risorse in diversi contesti (raccolta e annotazione di una risorsa linguistica, calcolo del disaccordo, creazione di diagrammi per la rappresentazione dei dati) e alcune esercitazioni pratiche saranno assegnate per testare la capacità raggiunta in questi compiti.


Course delivery

Lessons and laboratories

Lezioni frontali e attività di laboratorio


Learning assessment methods

The exam consists of an oral examination and practical exercises and is organized into two parts. The examination is conducted in presence, also using computer tools. In the evaluation, special consideration is given to the ability to discursively organize knowledge and use the specialized vocabulary of the subject.

The grade, expressed in thirtieths, is the sum of the marks obtained on the two parts.

The first part is focused on resources for morpho-syntax, automatic and assisted translation, dictionaries and treebanks:

A) It will be evaluated the ability to use tools for morphological and syntactic analysis of texts (e.g. UDPipe as a part of speech tagger and as a parser) and to describe in a talk some applications of these tools to some case-studies, working in groups (for students attending the classes) or not > the maximum score is 7 points
B) It will be evaluated the knowledge about linguistic resources and their exploitation in different tasks by answering some oral questions > the maximum score is 8 points.

The evaluation for the second part of the course will consist of a Project Work on the development of annotated corpora and analysis, to be implemented by following the instructions described in a document that will be made available on Moodle. 


L'esame consists in una prova orale e in esercizi pratici, ed è organizzato in due parti. L'esame si svolge in presenza, utilizzando anche supporti informatici. Nella valutazione si terrà particolarmente in considerazione la capacità di organizzare la conoscenza in forma discorsiva e di utilizzare la terminologia specialistica del soggetto di studio.

Il voto, espresso in trentesimi, è calcolato come somma dei voti ottenuti nelle due parti.

La prima parte si focalizza sulle risorse per morfologia e sintassi, traduzione automatica e assistita, dizionari e treebank:

A) Verrà valutata la capacità di usare strumenti per l'analisi morfo-sintattica del testo (e.g. UDPipe come part of speech tagger e come parser) e di descrivere in una presentazione orale l'applicazione di questi strumenti a dei casi di studio, lavorando in gruppo (per gli studenti e studentesse frequentanti) o da soli/e > voto massimo 7 punti
B) Verrà valutata la conoscenza delle risorse linguistiche e il loro utilizzo in diversi task tramite una interrogazione orale > voto massimo 8 punti.

La valutazione della seconda parte dell'insegnamento si baserà su un progetto sullo sviluppo di corpora annotati e sulla analisi di questi ultimi, che andrà costruito seguendo le istruzioni descritte in un documento che sarà reso disponibile su Moodle. 



Support activities

The course includes also seminars (to be announced asap) about specific topics, e.g. linguistic resources for ancient languages.

Students with specific learner disorders or disabilities should take a look at the support activities ( and at the Atheneum reception activities (, and especially at the procedures for supporting them during exams (

L'insegnamento prevede anche seminari (che verranno annunciati appena possibile) su argomenti specifici, ad esempio sulle risorse linguistiche per le lingue antiche.

Gli studenti e le studentesse con DSA o disabilità, sono pregati di prendere visione delle modalità di supporto ( e di accoglienza ( di Ateneo, ed in particolare delle procedure necessarie per il supporto in sede d’esame (

Suggested readings and bibliography


Some suggested reading for the first part of the course:

- about language variation and multilingualism it is recommended to read Emily Bender - "High Resource Languages vs Low Resource Languages" available at

- Jurafsky & Martin - "Speech and Language Processing. An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition"(third edition, 2022) is a very good and updated general reference book; in particular, it is recommended the reading of (the introductory part of) chapter 8, which introduces part of speech tagging, and of (the introductory part of) chapters 12, 13 and 14, which introduce syntactic analysis (parsing). The draft is made available by the authors at

Letture consigliate per la prima parte del corso:

- sulla variazione del linguaggio e il multilinguismo si raccomanda la lettura di Emily Bender - "High Resource Languages vs Low Resource Languages" disponibile alla pagina

- Jurafsky & Martin - "Speech and Language Processing. An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition"(third edition, 2022) è un ottimo manuale molto aggiornato da utilizzare come riferimento generale; in particolare si raccomanda la lettura (almeno delle parti introduttive) del capitolo 8, che introduce il part of speech tagging, e dei capitoli 12, 13 e 14 che introducono l'analisi sintattica (parsing). La bozza del libro è resa disponibile dagli autori alla pagina



For precise information about the exam for students that cannot attend the classes, please contact by email the teachers.

Per informazioni sull'esame per student e studentesse non frequentanti, contattare le docenti.

