Vai al contenuto principale

Speech Technologies


Speech Technologies


Academic year 2023/2024

Course ID
Antonio Romano (Lecturer)
Degree course
Language Technologies and Digital Humanities
1st year, 2nd year
Teaching period
Second semester
Course disciplinary sector (SSD)
L-LIN/01 - glottology and linguistics
Formal authority
Type of examination
Type of learning unit
Modular course
Speech Technology and Data-driven Corpus Analysis (STU0683)

A good motivation to catch the basic distinction between written and spoken language is required (speech is not as we imagine it to be by reasoning as literati).

Si richiede una buona motivazione nel cogliere la distinzione fondamentale tra lingua scritta e lingua parlata (il parlato non è come ce lo immaginiamo ragionando da letterati).


Sommario del corso


Course objectives

This teaching module aims at providing a basic knowledge about Speech and Voice Analysis.

Its topics include acoustic phonetic analysis, speech chunking and classification of intonational units according to their functions. 

Questo modulo didattico mira a fornire conoscenze di base nell'analisi del parlato e della voce.

Gli argomenti trattati comprendono l'analisi fonetica acustica, la segmentazione del parlato e la classificazione delle unità intonative in base alle loro funzioni.


Results of learning outcomes

At the conclusion of this module, students are expected to have reached a better knowledge of theoretical notions and developed some practical skills for the analysis of the representation and transposition of spoken and written messages in English, Italian and other languages. 

Al termine di questo modulo, ci si aspetta che gli studenti abbiano raggiunto una migliore conoscenza delle nozioni teoriche e sviluppato alcune abilità pratiche per l'analisi della rappresentazione e della trasposizione di messaggi parlati e scritti in inglese, italiano e altre lingue.



The programme of this teaching module focuses on Speech and Voice Analysis.

Its topics are basically related to the contents of a selection of paragraphs from Johnson (2013) [§§1.3, 2.3, 4.1, 5.1, 5.5, 6.1, 6.2, 6.5, 7.4, 8.1, 8.2] and to a specific section reserved to the classification of speech units according to their intonational function (in ref. to Italian, English and the main languages spoken by students, see Romano 2023, “The suprasegmental organisation of language”). This section involves practical work by the attending students, based on a soundfile that will be assigned during the course of the lectures.


  1. The phonetic and phonological representation of the speech sounds

1.1. Spoken Communication (Jakobson's model of audio-verbal communication)

1.2. Speech, utterance vs. Text, sentences

1.3. Phonetics and phonology


  1. The Sounds of English and Italian

2.1. Sound inventories (BrE and Italian/other languages)

2.2. IPA tables

2.3. Dialects / Accents of English / Speech Archives


  1. Phonotactics, phonosyntax and prosody

3.1. Syllable, clusters...

3.2. Internal and external clusters: from phonotactic to phonosyntactic rules

3.3. Local prominences: word accent hierarchies


  1. Intonation and speech rhythm

4.1. Intonation units

4.1. Timing, pausing

4.3. Tools for labelling and guidelines


  1. Instrumental phonetic analysis

5.1. Spectrograms

5.2. The Source-Filter theory

5.3. Voice and sound quality


  1. Spectral analysis for digital signals

6.1. Cues of articulatory and phonatory activities

6.2. Vowel qualities, transitions, acoustic loci and spectral moments

6.3. Word boundaries in spectrograms


  1. Acoustic cues for Vowels and Consonants

7.1. Vowels and sonorants

7.2. Obstruents (stops, fricatives, and affricates)

7.2. Reduction of function words. Effects of speech rhythm


  1. Acoustic and Perceptive Phonetics

8.1. Phonological features, acoustic cues and auditory objects

8.2. Pitch and tone sensations

8.3. Prosodic words, tunes, speech chains, punctuation and hyphenation


  1. Speech technologies

9.1. TXT, ASR, tools and services

9.2. Automatic segmentation and labelling

9.3. Summary and assessment

Il programma di questo modulo didattico è incentrato sull'analisi del parlato e della voce.

I suoi argomenti sono essenzialmente legati ai contenuti di una selezione di paragrafi di Johnson (2013) [§§1.3, 2.3, 4.1, 5.1, 5.5, 6.1, 6.2, 6.5, 7.4, 8.1, 8.2] e a una sezione specifica riservata alla classificazione delle unità del discorso in base alla loro funzione intonativa (in riferimento all'italiano, all'inglese e alle principali lingue parlate dagli studenti, si veda Romano 2023, "L'organizzazione soprasegmentale del linguaggio"). Questa sezione prevede un lavoro pratico da parte degli studenti frequentanti, sulla base dell'analisi di un file sonoro che verrà assegnato nel corso delle lezioni.


  1. The phonetic and phonological representation of the speech sounds

1.1. Spoken Communication (Jakobson's model of audio-verbal communication)

1.2. Speech, utterance vs. Text, sentences

1.3. Phonetics and phonology


  1. The Sounds of English and Italian

2.1. Sound inventories (BrE and Italian/other languages)

2.2. IPA tables

2.3. Dialects / Accents of English / Speech Archives


  1. Phonotactics, phonosyntax and prosody

3.1. Syllable, clusters...

3.2. Internal and external clusters: from phonotactic to phonosyntactic rules

3.3. Local prominences: word accent hierarchies


  1. Intonation and speech rhythm

4.1. Intonation units

4.1. Timing, pausing

4.3. Tools for labelling and guidelines


  1. Instrumental phonetic analysis

5.1. Spectrograms

5.2. The Source-Filter theory

5.3. Voice and sound quality


  1. Spectral analysis for digital signals

6.1. Cues of articulatory and phonatory activities

6.2. Vowel qualities, transitions, acoustic loci and spectral moments

6.3. Word boundaries in spectrograms


  1. Acoustic cues for Vowels and Consonants

7.1. Vowels and sonorants

7.2. Obstruents (stops, fricatives, and affricates)

7.2. Reduction of function words. Effects of speech rhythm


  1. Acoustic and Perceptive Phonetics

8.1. Phonological features, acoustic cues and auditory objects

8.2. Pitch and tone sensations

8.3. Prosodic words, tunes, speech chains, punctuation and hyphenation


  1. Speech technologies

9.1. TXT, ASR, tools and services

9.2. Automatic segmentation and labelling

9.3. Summary and assessment



Course delivery

The course is organised in 9 two-hour meetings (lectures). The programme will only be completed if at least one participant (the same student at all meetings) attends a total of 18 hours.

Il corso è organizzato in 9 incontri (lezioni frontali) di due ore. Il programma sarà completato solo se almeno un/a partecipante (lo/a stesso/a studente/ssa in tutti gli incontri) frequenterà un totale di 18 ore.


Learning assessment methods

An oral examination is planned to test knowledge of the content of the paragraphs selected by Johnson (2013) [§§1.3, 2.3, 4.1, 5.1, 5.5, 6.1, 6.2, 6.5, 7.4, 8.1, 8.2] and of the classification skills developed by students about intonational units (ref. to Romano 2023, "The suprasegmental organisation of language"). The oral examination may be replaced by a brief discussion of the results of a practical work assigned to attending students (see below)

Students who attend a sufficient number of lectures and who have a clear idea of how to do the practical work may decide to base their exam on a brief discussion of the segmentation and labelling work they have done on a an assigned speech file (The discussion will focus on the soundfile that will be assigned to each of them and about its segmentation and labelling at an elementary level of sentences and words). If this is not the case, students may take their exam as an oral interview based on textbooks and the materials made available on the Moodle site.


È previsto un esame orale per verificare la conoscenza del contenuto dei paragrafi selezionati da Johnson (2013) [§§1.3, 2.3, 4.1, 5.1, 5.5, 6.1, 6.2, 6.5, 7.4, 8.1, 8.2] e delle capacità di classificazione sviluppate dagli studenti sulle unità intonative (cfr. Romano 2023, "L'organizzazione soprasegmentale della lingua"). L'esame orale può essere sostituito da una breve discussione dei risultati di un lavoro pratico assegnato agli studenti frequentanti (vedi sotto).

Gli/Le studenti/esse che frequentano un numero sufficiente di lezioni e che hanno un'idea chiara di come svolgere il lavoro pratico possono decidere di basare il loro esame su una breve discussione del lavoro di segmentazione ed etichettatura svolto su un file vocale assegnato (la discussione si concentrerà sul file audio che verrà assegnato a ciascuno/a di loro e sulla sua segmentazione ed etichettatura a livello elementare di frasi e parole). In caso contrario, gli/le studenti/esse potranno sostenere l'esame come un colloquio orale basato sui libri di testo e sui materiali messi a disposizione sul sito Moodle.


Support activities

Students who attend a sufficient number of lectures and who have a clear idea of how to do the practical work may decide to base their exam on a brief discussion of the segmentation and labelling work they have done on a an assigned speech file (The discussion will focus on the soundfile that will be assigned to each of them and about its segmentation and labelling at an elementary level of sentences and words). If this is not the case, students may take their exam as an oral interview based on textbooks and the materials made available on the Moodle site.

Students with SLD or disabilities can access the UniTO support 
( [1]) and reception activities ( [2]) and, in particular, the procedures necessary for exam support ( [3])

Gli/Le studenti/esse che frequentano un numero sufficiente di lezioni e che hanno un'idea chiara di come svolgere il lavoro pratico possono decidere di basare il loro esame su una breve discussione del lavoro di segmentazione ed etichettatura svolto su un file vocale assegnato (la discussione si concentrerà sul file audio che verrà assegnato a ciascuno/a di loro e sulla sua segmentazione ed etichettatura a livello elementare di frasi e parole). In caso contrario, gli/le studenti/esse potranno sostenere l'esame come un colloquio orale basato sui libri di testo e sui materiali messi a disposizione sul sito Moodle.

Gli/Le studenti/esse con DSA o disabilità, possono prendere visione delle modalità di supporto
( [1]) e di accoglienza
( [2]) di Ateneo e, in particolare, delle procedure necessarie per il supporto in sede d’esame
( [3])

Suggested readings and bibliography

Acoustic and auditory phonetics (2nd ed.)
Year of publication:  
Chichester: Wiley-Blackwell
Johnson K.
§§1.3, 2.3, 4.1, 5.1, 5.5, 6.1, 6.2, 6.5, 7.4, 8.1, 8.2

The suprasegmental organisation of language
pdf by A. Romano 2023 (translate and integrate a chapter from Romano A. (2009). Inventari sonori delle lingue.. Alessandria: Dell'Orso (2a ed.)

Hawkins S. (2010). “Phonological features, auditory objects, and illusions”, Journal of Phonetics, 38, 60-89.

The Handbook of phonetic sciences (edited by William J. Hardcastle, John Laver, and Fiona E. Gibbon, Chichester : Wiley-Blackwell, 2013 [])

The Handbook of speech perception (edited by David B. Pisoni and Robert E. Remez, Chichester : Wiley-Blackwell, 2005 [])

Jurafsky D. & Martin J.H. (2023). Speech and Language Processing. An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition. Englewood Cliffs: Prentice Hall (3rd Edition) []

Hawkins S. (2010). “Phonological features, auditory objects, and illusions”, Journal of Phonetics, 38, 60-89.

The Handbook of phonetic sciences (edited by William J. Hardcastle, John Laver, and Fiona E. Gibbon, Chichester : Wiley-Blackwell, 2013 [])

The Handbook of speech perception (edited by David B. Pisoni and Robert E. Remez, Chichester : Wiley-Blackwell, 2005 [])

Jurafsky D. & Martin J.H. (2023). Speech and Language Processing. An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition. Englewood Cliffs: Prentice Hall (3rd Edition) []



Inserire qui il testo in inglese. Non eliminare l’indicazione “English” tra le parentesi quadre; è necessaria per la creazione dell’etichetta di visualizzazione del testo in inglese. Una volta inseriti i testi eliminare queste indicazioni in modo che non risultino visibili agli studenti.

Inserire qui il testo in italiano. Non eliminare l’indicazione “Italiano” tra le parentesi quadre; è necessaria per la creazione dell’etichetta di visualizzazione del testo in italiano. Una volta inseriti i testi eliminare queste indicazioni in modo che non risultino visibili agli studenti.

  • Open
    Enrollment opening date
    01/09/2023 at 00:00
    Enrollment closing date
    30/06/2024 at 00:00
    Last update: 12/02/2024 10:24
    Non cliccare qui!