- Oggetto:
- Oggetto:
Linguistic Resources for Natural Language Processing
- Oggetto:
Linguistic Resources for Natural Language Processing
- Oggetto:
Academic year 2024/2025
- Course ID
- STU0674
- Teachers
- Cristina Bosco (Lecturer)
Viviana Patti (Lecturer) - Degree course
- Language Technologies and Digital Humanities
- Year
- 1st year
- Teaching period
- First semester
- Type
- Distinctive
- Credits/Recognition
- 12
- Course disciplinary sector (SSD)
- INF/01 - informatics
- Delivery
- Formal authority
- Language
- English
- Attendance
- Obligatory
- Type of examination
- Oral
- Prerequisites
-
Basic computer skills and a general knowledge of textual markup tools and models may be helpful, but not essential.
Sono utili, anche se non indispensabili, conoscenze informatiche di base e familiarità con strumenti e modelli di marcatura del testo.
- Oggetto:
Sommario del corso
- Oggetto:
Course objectives
The course aims to provide the basic notions of computational linguistics and Natural Language Processing (NLP), mostly focusing on linguistic resources. It introduces the main tasks and the historical perspective where resources are collocated (from rule-based to data-driven approaches to machine learning and neural networks). Referring to the scenario of the large variety of existing resources and providing several examples, the methodology for the development of different types of resources is investigated to be integrated into the background of students interested in language technologies.
L'insegnamento si propone di fornire le nozioni di base della linguistica computazionale e dell'elaborazione del linguaggio naturale (NLP), concentrandosi principalmente sulle risorse linguistiche. Introduce i principali task di NLP e la prospettiva storica in cui vengono collocate le risorse (dagli approcci basati sulle regole, a quelli basati sui dati, all'apprendimento automatico e alle reti neurali). Facendo riferimento allo scenario della grande varietà di risorse esistenti e fornendo diversi esempi, la metodologia per lo sviluppo di vari tipi di risorse verrà esaminata ed integrata nel background di studenti e studentesse interessati alle tecnologie del linguaggio.
- Oggetto:
Results of learning outcomes
Students will have the opportunity to improve their knowledge and understanding of linguistic resources, describe them by correctly using the related terminology and select the resources for different tasks and typologies. They will try and test tools to build and validate resources in different settings, acquire the ability to collect and annotate them, calculate the disagreement between annotators, and create diagrams for data representation.
Gli studenti e le studentesse avranno l'opportunità di conoscere e comprendere le risorse linguistiche, di descriverle utilizzando la terminologia appropriata e scegliere le risorse in base al task e alla tipologia. Potranno provare e testare strumenti per costruire e convalidare le risorse in diversi contesti, acquisiranno la capacità di raccoglierle e annotarle, di calcolare il disaccordo tra annotatori, e creare diagrammi per la rappresentazione dei dati.
- Oggetto:
Program
We will introduce the resources used in the NLP pipeline for morpho-syntactic analysis (text segmentation and tokenization, morpho-syntactic processing and part of Speech tagging, syntactic parsing) and in particular treebanks, those exploited in semantic analysis (distributional semantics, ontology learning, open information extraction, latent semantic analysis) and pragmatic analysis (sentiment analysis). We will focus on the steps for the creation of resources (collection, selection, annotation, analysis and inter-annotator agreement measures) and challenges to be addressed (ambiguity, genre variation, multilingualism, bias, variety of formats), but also on the steps involved in the evaluation of the resources within the context of evaluation campaigns for NLP. Finally, practical and ethical considerations in the effective use of resources (datasets, lexicons, models) will be also presented and discussed proposing ethics statements about tools to navigate (research choices and communicative implications) and analyzed data (What is a Research Ethics Statement and Why does it Matter?).
A practical counterpart of the course will give students the opportunity to test tools to build and validate resources in different settings (collecting and annotating a linguistic resource, calculating disagreement, building diagrams for representing data), while practical exercises will be assigned for testing their ability in these tasks.Presenteremo le risorse utilizzate nella pipeline di NLP per l'analisi Morpho-sintattica (segmentazione e tokenizzazione del testo, elaborazione Morpho-sintattica e part of Speech tagging, analisi sintattica) e in particolare treebanks, quelle sfruttate nell'analisi semantica (distributional semantics, ontology learning, open information extraction, latent semantic analys) e analisi pragmatica (sentiment analysis). Ci concentreremo sulle fasi per la creazione di risorse (raccolta, selezione, annotazione, analisi e misure di accordo inter-annotatore) e le sfide da affrontare (ambiguità, variazione di genere testuale, multilinguismo, bias, varietà di formati), ma anche sulle fasi di valutazione delle risorse nell'ambito delle campagne di valutazione di NLP. Infine, saranno presentate e discusse anche considerazioni pratiche ed etiche nell'uso efficace delle risorse (dataset, lessici, modelli) proponendo considerazioni etiche sugli strumenti di navigazione (scelte di ricerca e implicazioni comunicative) e dati analizzati (Che cosa è una considerazione etica di ricerca e perché importa?).
Una controparte pratica dell'insegnamento darà agli studenti l'opportunità di testare strumenti per costruire e convalidare le risorse in diversi contesti (raccolta e annotazione di una risorsa linguistica, calcolo del disaccordo, creazione di diagrammi per la rappresentazione dei dati) e alcune esercitazioni pratiche saranno assegnate per testare la capacità raggiunta in questi compiti.- Oggetto:
Course delivery
Lessons and laboratories
Lezioni frontali e attività di laboratorio
- Oggetto:
Learning assessment methods
The exam consists of an oral examination and practical exercises and is organized into two parts. The examination is conducted in presence, also using computer tools. In the evaluation, special consideration is given to the ability to discursively organize knowledge and use the specialized vocabulary of the subject.
The grade, expressed in thirtieths, is the sum of the marks obtained on the two parts.
The first part is focused on resources for morpho-syntax, automatic and assisted translation, dictionaries and treebanks:
A) It will be evaluated the ability to use tools for morphological and syntactic analysis of texts (e.g. UDPipe as a part of speech tagger and as a parser) and to describe in a talk some applications of these tools to some case-studies, working in groups (for students attending the classes) or not > the maximum score is 7 points
B) It will be evaluated the knowledge about linguistic resources and their exploitation in different tasks by answering some oral questions > the maximum score is 8 points.The evaluation for the second part of the course will consist of a Project Work on the development of annotated corpora and analysis, to be implemented by following the instructions described in a document that will be made available on Moodle.
L'esame consists in una prova orale e in esercizi pratici, ed è organizzato in due parti. L'esame si svolge in presenza, utilizzando anche supporti informatici. Nella valutazione si terrà particolarmente in considerazione la capacità di organizzare la conoscenza in forma discorsiva e di utilizzare la terminologia specialistica del soggetto di studio.
Il voto, espresso in trentesimi, è calcolato come somma dei voti ottenuti nelle due parti.
La prima parte si focalizza sulle risorse per morfologia e sintassi, traduzione automatica e assistita, dizionari e treebank:
A) Verrà valutata la capacità di usare strumenti per l'analisi morfo-sintattica del testo (e.g. UDPipe come part of speech tagger e come parser) e di descrivere in una presentazione orale l'applicazione di questi strumenti a dei casi di studio, lavorando in gruppo (per gli studenti frequentanti) o da soli/e > voto massimo 7 punti
B) Verrà valutata la conoscenza delle risorse linguistiche e il loro utilizzo in diversi task tramite una interrogazione orale > voto massimo 8 punti.La valutazione della seconda parte dell'insegnamento si baserà su un progetto sullo sviluppo di corpora annotati e sulla analisi di questi ultimi, che andrà costruito seguendo le istruzioni descritte in un documento che sarà reso disponibile su Moodle.
- Oggetto:
Support activities
The course includes also seminars (to be announced asap) about specific topics, e.g. linguistic resources for ancient languages.
Students with specific learner disorders or disabilities should take a look at the support activities (https://www.unito.it/servizi/lo-studio/studenti-con-disabilita) and at the Atheneum reception activities (https://www.unito.it/accoglienza-studenti-con-disabilita-e-dsa), and especially at the procedures for supporting them during exams (https://www.unito.it/servizi/lo-studio/studenti-e-studentesse-con-disabilita/supporto-studenti-e-studentesse-con).
L'insegnamento prevede anche seminari (che verranno annunciati appena possibile) su argomenti specifici, ad esempio sulle risorse linguistiche per le lingue antiche.
Gli studenti con DSA o disabilità, sono pregati di prendere visione delle modalità di supporto (https://www.unito.it/servizi/lo-studio/studenti-con-disabilita) e di accoglienza (https://www.unito.it/accoglienza-studenti-con-disabilita-e-dsa) di Ateneo, ed in particolare delle procedure necessarie per il supporto in sede d’esame (https://www.unito.it/servizi/lo-studio/studenti-e-studentesse-con-disabilita/supporto-studenti-e-studentesse-con).
Scrivi testo qui...
Write text here...Suggested readings and bibliography
- Oggetto:
For the oral examination about the first part of the course, students must carefully read:
- about language variation and multilingualism it is recommended to read Emily Bender - "High Resource Languages vs Low Resource Languages" available at https://thegradient.pub/the-benderrule-on-naming-the-languages-we-study-and-why-it-matters/#fn15
The following further reading is proposed to support the preparation as a general reference updated book:
- Jurafsky & Martin - "Speech and Language Processing. An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition"(third edition, 2022) is a very good and updated general reference book; in particular, it is recommended reading (the introductory part of) chapter 8, which introduces part of speech tagging, and of (the introductory part of) chapters 12, 13 and 14, which introduce syntactic analysis (parsing). The draft is made available by the authors at https://web.stanford.edu/~jurafsky/slp3/
Per l'esame orale circa la prima parte del corso, gli student e studentesse devono leggere con attenzione:
- sulla variazione del linguaggio e il multilinguismo si raccomanda la lettura di Emily Bender - "High Resource Languages vs Low Resource Languages" disponibile alla pagina https://thegradient.pub/the-benderrule-on-naming-the-languages-we-study-and-why-it-matters/#fn15
Il seguente libro è invece proposto come manuale aggiornato di riferimento per tutto quello che riguarda NLP:
- Jurafsky & Martin - "Speech and Language Processing. An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition"(third edition, 2022) è un ottimo manuale molto aggiornato da utilizzare come riferimento generale; in particolare si raccomanda la lettura (almeno delle parti introduttive) del capitolo 8, che introduce il part of speech tagging, e dei capitoli 12, 13 e 14 che introducono l'analisi sintattica (parsing). La bozza del libro è resa disponibile dagli autori alla pagina https://web.stanford.edu/~jurafsky/slp3/
- Oggetto:
Notes
For precise information about the exam for students who cannot attend the classes, please contact the teachers by email.
Classes are designed for in-person attendance, not streamed nor recorded since recording or streaming could significantly lower their quality. Those who could not participate can consult the material on Moodle and in case of doubts consult the teacher if clarifications are needed.
The Moodle page for the course will remain open to guests until the end of September.
Per informazioni sull'esame per studenti non frequentanti, contattare le docenti.
Le lezioni sono costruite per essere fruite in presenza, non sono previste registrazioni o streaming. Chi non potesse frequentare è invitato a consultare il materiale su Moodle e nel caso di dubbi consultare la docente se servono chiarimenti.
La pagina Moodle è aperta a utenti "guest" fino a fine settembre.
- Enroll
- Open
- Enrollment opening date
- 01/09/2024 at 00:00
- Enrollment closing date
- 30/06/2025 at 00:00
- Oggetto: