La Prova della Voce: Viaggio nella Fonetica Forense, tra i Fantasmi del Passato e le Sfide del Futuro - Daniele Bertinelli

26 Jun

La sabbia è calda sotto i piedi, il sole di una domenica estiva accarezza la pelle. È una giornata come tante altre sulla spiaggia di Lignano Sabbiadoro, un mosaico di voci, risate di bambini, il richiamo lontano di un venditore. In questo coro di normalità, un oggetto stona: un evidenziatore giallo, abbandonato vicino a un ombrellone. Una bambina di nove anni, Francesca, lo nota. Si china per raccoglierlo, un gesto innocente, quasi automatico. Un uomo in lontananza la guarda, sorride.1 L'istante dopo, il suono. Non un boato, ma uno schiocco secco, violento, che lacera il brusio della spiaggia. Per un momento, il mondo di Francesca diventa nero, silenzioso. Quando riapre gli occhi, la vista torna lentamente, ma la sua mano destra non c'è più. Al suo posto, un moncherino di sangue e ossa. La madre accorre, le sue urla si fondono con quelle degli altri bagnanti, avvolge la ferita in un asciugamano per fermare un'emorragia che sembra inarrestabile.1In quel momento, per la bambina, è solo un incidente inspiegabile, un evento terribile che "poteva capitare".1 Ci vorranno anni, e la maturità di una donna adulta, per comprendere la verità agghiacciante: non è stato un caso. Quel giorno, una persona si è svegliata e ha deciso deliberatamente di fare del male a uno sconosciuto, a un bambino. Ha scelto un oggetto comune, un pennarello, e lo ha trasformato in un'arma. Per quasi vent'anni, quella bambina, ora donna, ha vissuto senza un colpevole, senza un volto da associare all'uomo che ha riscritto per sempre la sua vita.1 Un fantasma.

Questo fantasma, per oltre un decennio, ha avuto un nome coniato dalla stampa: Unabomber. Non quello americano, ma un imitatore italiano, un'ombra che ha terrorizzato il Nord-Est del paese. La sua firma non era un manifesto ideologico, ma il silenzio. La sua identità non era celata dietro a un travestimento, ma nell'assoluta normalità degli oggetti che trasformava in ordigni: uova, tubetti di maionese, scatolette di tonno, lumini votivi in una chiesa.2 In questo vuoto, in questa assenza di un volto o di una voce, la caccia all'uomo si è trasformata in una disperata caccia a qualsiasi traccia, a qualsiasi eco che potesse condurre a lui.

L'Eco di un Fantasma: La Caccia a Unabomber e la Promessa della Scienza

Tra il 1994 e il 2006, le province di Pordenone, Udine, Venezia e Treviso vissero in uno stato di ansia strisciante. Oltre trenta attentati, nessuna vittima mortale ma feriti, mutilati, spesso bambini, lasciati a convivere con le conseguenze fisiche e psicologiche di un atto di violenza tanto casuale quanto meticoloso.3 Per gli inquirenti, il caso Unabomber divenne un'ossessione e un pantano investigativo. Le piste si accavallavano e si dissolvevano: terrorismo, un militare congedato, un mitomane.7 Il profilo psicologico tracciato dagli esperti suggeriva un individuo solitario, forse affetto da un trauma, che colpiva senza un obiettivo specifico, spinto da un bisogno esibizionista e di sfida.4Gli indizi materiali erano scarsi, ma preziosi. Su un uovo-bomba inesploso, trovato in un ipermercato di Portogruaro, il Reparto Investigazioni Scientifiche (RIS) di Parma repertò tracce biologiche: un capello e saliva.7 Da lì, venne estratto un profilo del DNA. Su un altro ordigno, fu rilevata un'impronta digitale parziale.7 Per anni, questi frammenti di identità rimasero l'unica speranza concreta, un codice genetico in attesa di un nome a cui essere associato. La pressione mediatica e pubblica per trovare un colpevole era enorme, un clima che può spingere le indagini verso sentieri pericolosi.9 Fu in questo contesto che l'ingegnere Elvo Zornitta di Azzano Decimo divenne il principale, e per un lungo periodo unico, indagato.6 La sua vita fu passata al setaccio con una meticolosità implacabile. La sua casa e il suo laboratorio, a cui secondo la moglie solo lui aveva accesso, furono perquisiti.9 Gli investigatori installarono microspie nella sua abitazione, persino in camera da letto, misero sotto controllo la sua posta e applicarono localizzatori GPS alle auto di famiglia. Fu pedinato, ogni sua conversazione telefonica intercettata e ascoltata.9 Il ritrovamento di oggetti come potenziometri e ovetti di plastica Kinder a casa sua venne interpretato come un indizio sospetto.9La prova che sembrava decisiva, quella che avrebbe potuto chiudere il caso, arrivò da un lamierino metallico, parte di un ordigno. Un perito della polizia, Ezio Zernar, affermò con certezza che quel lamierino era stato tagliato da un paio di forbici sequestrate a Zornitta.10 Era il collegamento diretto, la prova regina che legava l'ingegnere agli attentati. La richiesta di rinvio a giudizio sembrava imminente.10 Ma la difesa di Zornitta, guidata dagli avvocati Maurizio Paniz e Paolo Dell'Agnolo, non si arrese e chiese un'ulteriore perizia. Il risultato fu sconvolgente. L'analisi, precisa al decimo di millimetro, dimostrò che il taglio sul lamierino non era compatibile con le forbici di Zornitta. Peggio ancora, rivelò che il poliziotto aveva deliberatamente manomesso la prova, tagliando lui stesso il lamierino per farlo combaciare con lo strumento dell'indagato e creare così un colpevole.10Nel 2009, il procedimento contro Elvo Zornitta fu archiviato per mancanza di prove.8 Lo Stato lo risarcì, ma nessuna cifra poteva compensare la distruzione della sua vita, la gogna mediatica, la paura costante di essere arrestato, la diffidenza della gente che, anche dopo l'assoluzione, lo guardava con sospetto al supermercato.12 "Anch'io sono vittima di Unabomber", dichiarò Zornitta, "non sono rimasto mutilato fisicamente, ma le ferite dell'inchiesta che mi ha travolto sanguinano ancora".14La vicenda di Zornitta è un monito potente sui pericoli della "certezza forzata". La pressione investigativa, il desiderio di dare un volto al fantasma, portarono un uomo dello Stato a fabbricare una prova, a piegare la scienza al bisogno di una risposta semplice e definitiva. Questo anelito alla certezza assoluta è lo stesso che, decenni prima, aveva dato vita a una delle più controverse discipline forensi: il riconoscimento vocale. L'inchiesta su Zornitta, con le sue migliaia di ore di intercettazioni, poneva al centro dell'indagine la voce, sebbene non quella del vero colpevole. E proprio dalle intercettazioni e dai vecchi reperti è ripartita la speranza. Nel 2022, grazie all'istanza di una delle vittime e al lavoro del giornalista Marco Maisano, che ha passato mesi a rileggere documenti e riascoltare vecchi nastri, la Procura di Trieste ha riaperto il caso.3 La speranza, questa volta, è affidata alle nuove tecnologie in grado di analizzare quel DNA antico, trovato sull'uovo e su altri dieci reperti, con una precisione un tempo impensabile.2Il caso Unabomber offre così un contrasto emblematico. Da un lato, la speranza riposta nella "scienza dura", nella certezza biologica del DNA, una molecola che, se correttamente conservata e analizzata, promette una risposta binaria: corrisponde o non corrisponde. Dall'altro, il ricordo di un'indagine in cui l'analisi di tracce più ambigue, come un taglio su un metallo o il contenuto di una conversazione, si è rivelata fallace e manipolabile. In questo spazio tra la certezza del codice genetico e l'incertezza dell'interpretazione si colloca la fonetica forense, la scienza che cerca di estrarre un'identità non da un filamento di DNA, ma dall'impalpabile e volatile natura della voce umana.

La Voce Nuda: Anatomia di un'Impronta Sonora

Per comprendere come una voce possa diventare una prova, è necessario spogliarla, scomporla nei suoi elementi fondamentali. La voce umana non è un singolo attributo, ma il risultato di una complessa interazione tra biologia e comportamento, tra natura e cultura. Ogni identità vocale poggia su due pilastri distinti ma interconnessi: la firma acustica, dettata dalla nostra anatomia, e l'impronta linguistica, modellata dalle nostre esperienze.Il primo pilastro è la firma acustica, la voce fisica. Il suo processo di creazione può essere paragonato a quello di uno strumento musicale. Tutto ha inizio nella laringe, la "sorgente" del suono. Qui, il flusso d'aria proveniente dai polmoni fa vibrare le corde vocali. La velocità di questa vibrazione determina la Frequenza Fondamentale, nota anche come F0 o pitch. È la caratteristica che percepiamo come altezza della voce (più grave o più acuta) e rappresenta un parametro biometrico cruciale, misurabile con precisione.16 Questo suono grezzo, tuttavia, non è ancora una voce riconoscibile. Deve attraversare il "filtro": il tratto vocale, ovvero l'insieme delle cavità della faringe, della bocca e del naso. La forma e le dimensioni uniche di questo tratto, determinate dalla nostra specifica anatomia cranio-facciale, agiscono come una cassa di risonanza. Amplificano l'energia del suono a determinate frequenze e la attenuano ad altre. I picchi di massima energia che ne risultano sono chiamati formanti. Le formanti sono estremamente rappresentative della configurazione fisica di un individuo e costituiscono uno degli elementi più stabili e caratterizzanti della sua voce.16 Per visualizzare queste caratteristiche, i fonetisti utilizzano uno strumento chiamato spettrografo, che produce un sonogramma (o spettrogramma): un grafico che mostra l'evoluzione delle frequenze nel tempo, con l'intensità del suono rappresentata da colori o sfumature di grigio. È l'immagine visiva della voce, la sua "impronta" nel senso più letterale.17Il secondo pilastro è l'impronta linguistica, la voce comportamentale. Se l'anatomia fornisce lo strumento, l'apprendimento e l'abitudine insegnano come suonarlo. Questo strato di caratteristiche, apprese nel corso della vita, aggiunge ulteriori elementi identificativi. L'idioletto è l'insieme delle abitudini linguistiche uniche di un individuo: la sua scelta di parole, le espressioni ricorrenti, i tic verbali, la struttura delle frasi.16 L'analisi del dialetto e del socioletto può rivelare molto sulla provenienza geografica e sull'ambiente socio-culturale di una persona. La pronuncia di specifiche consonanti, come la 'r' (la cosiddetta "erre moscia"), la 's' o la 'z', è spesso un indicatore molto sensibile dell'origine regionale.16 Infine, c'è la prosodia, la "musica" del parlato. Questa include parametri misurabili come la velocità di elocuzione (il numero di sillabe al secondo), considerata particolarmente utile in ambito forense per la sua relativa stabilità e misurabilità, l'uso e la durata delle pause (sia "vuote", silenziose, sia "piene", riempite da suoni come "ehm" o "cioè"), e l'andamento dell'intonazione e della cadenza.16La fonetica forense moderna non si affida a uno solo di questi pilastri, ma adotta un approccio combinato.19 L'analisi strumentale dei parametri acustici (la firma fisica) viene integrata con l'analisi dei pattern linguistici e prosodici (l'impronta comportamentale). Solo questa sinergia permette di costruire un quadro completo e affidabile. Questa dualità tra fisico e comportamentale, tra "hardware" anatomico e "software" appreso, è la chiave per comprendere sia il potenziale che i limiti della voce come prova. A differenza del DNA o delle impronte digitali, che sono tratti fisiologici statici e immutabili, la voce è una biometria comportamentale.20 È intrinsecamente dinamica e variabile. Cambia non solo nel corso della vita (dall'infanzia alla vecchiaia), ma anche di giorno in giorno, o persino di minuto in minuto. Fattori come lo stato di salute (un raffreddore), lo stress, l'emozione (rabbia, paura), l'assunzione di alcol o il fumo possono alterare significativamente i parametri vocali.21 Inoltre, a differenza di un'impronta digitale, una voce può essere deliberatamente alterata o camuffata.19 Questa variabilità intrinseca rende la voce un "bioindicatore imperfetto".23 È proprio questa imperfezione a rendere l'analogia con le impronte digitali non solo imprecisa, ma pericolosamente fuorviante, e a spiegare perché le prime, audaci pretese di una scienza della voce infallibile fossero destinate a scontrarsi con una dura realtà.

L'Illusione della Certezza: Ascesa e Caduta delle "Impronte Vocali"

La storia della fonetica forense è, in gran parte, la storia di una metafora seducente e del lungo e faticoso processo per liberarsene. La metafora era quella dell'"impronta vocale" (voiceprint), un termine che prometteva una certezza scientifica pari a quella delle impronte digitali, ma che nascondeva una realtà molto più complessa e incerta. Il protagonista di questa storia è Lawrence Kersta, un ingegnere dei Bell Telephone Laboratories. Negli anni '40, i laboratori Bell avevano sviluppato lo spettrografo sonoro, uno strumento per la ricerca sul parlato.17 Fu Kersta, negli anni '60, a intuirne il potenziale per l'identificazione forense. In un'epoca di minacce di bombe anonime e telefonate minatorie, le forze dell'ordine cercavano disperatamente un modo per identificare i colpevoli dalla loro voce.17 Kersta offrì loro una soluzione apparentemente miracolosa. Coniò il termine "voiceprint" e iniziò a sostenere che, attraverso il confronto visivo dei sonogrammi, fosse possibile identificare un parlatore con un'accuratezza superiore al 99%.17 Per rendere la sua tecnica ancora più convincente, sviluppò persino dei sonogrammi "a contorno" (contour spectrograms), la cui unica funzione era quella di assomigliare visivamente alle creste e ai solchi di un'impronta digitale, un'abile mossa di marketing scientifico.24L'idea era semplice e potente: come le creste papillari delle dita, anche il tratto vocale di ogni individuo sarebbe unico, producendo un'impronta sonora irripetibile. La tecnica di Kersta si basava sul confronto visivo di sonogrammi di parole chiave (come "the", "to", "and", "me") pronunciate dalla voce ignota e da quella del sospettato. Se l'esperto trovava un numero sufficiente di "punti di somiglianza" (un numero arbitrario, a volte fissato a 16, altre a 20), dichiarava un "match".18Inizialmente, le forze dell'ordine e alcuni tribunali accolsero con entusiasmo questa nuova tecnologia. L'idea di avere uno strumento oggettivo per risolvere i crimini basati sulla voce era troppo allettante per essere ignorata, e le "voiceprints" iniziarono a essere ammesse come prova in alcuni processi penali.17Tuttavia, la comunità scientifica dei fonetisti e dei linguisti reagì con scetticismo e allarme. Le critiche erano feroci e miravano al cuore della metodologia di Kersta. In primo luogo, le sue affermazioni sull'accuratezza non erano supportate da esperimenti scientifici su larga scala, controllati e sottoposti a revisione paritaria (peer review). I suoi studi erano limitati e non tenevano adeguatamente conto dell'enorme variabilità della voce umana.18 Il problema fondamentale era la premessa stessa su cui si basava la tecnica: l'idea che la variabilità della voce all'interno di un singolo individuo (variabilità intra-parlatore) fosse sempre e comunque inferiore alla variabilità tra individui diversi (variabilità inter-parlatore). Gli oppositori sostenevano che questa ipotesi non era mai stata provata scientificamente.26 Una persona poteva pronunciare la stessa parola in modi molto diversi a seconda del contesto, dell'emozione o dello stato fisico, rendendo il confronto visivo soggettivo e inaffidabile. Il termine "voiceprint" stesso fu condannato come una "mistica", una parola ingannevole che creava un'illusione di certezza scientifica dove non ne esisteva alcuna.18 La voce non è un'impronta statica lasciata su una superficie; è un evento dinamico, un comportamento che cambia nel tempo. I ricercatori seri iniziarono a evitare deliberatamente il termine, riconoscendone l'implicazione pseudoscientifica.24 La controversia divampò per decenni, portando a una situazione caotica nei tribunali. Alcune corti ammettevano la prova, altre la respingevano categoricamente, giudicandola non conforme allo standard di "generale accettazione" da parte della comunità scientifica di riferimento (il cosiddettoFrye standard, allora dominante negli Stati Uniti).17Questa lunga e aspra battaglia, tuttavia, non fu vana. Il fallimento dell'era delle "voiceprints" fu un passaggio doloroso ma necessario per la maturazione della disciplina. Costrinse il campo a fare i conti con i propri limiti, a rigettare le pretese di infallibilità e a cercare un fondamento più solido e onesto. La crisi purgò la fonetica forense dai suoi elementi più semplicistici e soggettivi, spingendola verso lo sviluppo di metodi statistici, probabilistici e oggettivi, gli unici in grado di gestire l'intrinseca incertezza della voce umana. La caduta della metafora dell'impronta vocale aprì la strada alla scienza moderna del confronto vocale.

La Bilancia della Giustizia: La Prova Vocale in Tribunale

L'ingresso della prova vocale nell'aula di un tribunale moderno è un processo delicato, che riflette la complessa evoluzione della scienza forense. Il perito fonico (il perito) non è più chiamato a emettere un verdetto categorico, un "sì" o un "no" sull'identità di un parlatore. Il suo ruolo, oggi, è quello di valutare la forza della prova vocale e di comunicarla al giudice in un modo che sia scientificamente rigoroso e giuridicamente comprensibile.20 In Italia, questo avviene tipicamente attraverso una perizia disposta ai sensi dell'art. 220 del codice di procedura penale, quando sono richieste specifiche competenze tecniche.28 Tuttavia, il sistema italiano sconta una debolezza significativa: l'assenza di una figura professionale del perito fonico ufficialmente riconosciuta a livello nazionale e la mancanza di protocolli operativi standardizzati, che lascia spazio a una certa disomogeneità nelle pratiche e nelle competenze.21Il cambiamento più profondo che ha investito la disciplina è stato l'abbandono del paradigma dell'identificazione a favore di quello della probabilità. Questo spostamento è incarnato dall'approccio bayesiano, un quadro logico-statistico che non mira a stabilire la verità assoluta, ma a misurare come una nuova prova (l'evidenza vocale) modifichi la credibilità di due ipotesi contrapposte: quella dell'accusa (la voce intercettata e quella del sospettato appartengono alla stessa persona) e quella della difesa (appartengono a persone diverse).Il cuore di questo approccio è il calcolo del Rapporto di Verosimiglianza (Likelihood Ratio o LR). Sebbene la formula matematica possa essere complessa, il concetto è intuitivo. L'LR è un numero che esprime quante volte è più probabile osservare le somiglianze e le differenze riscontrate tra due campioni vocali se provengono dalla stessa persona, rispetto a quante volte è più probabile osservarle se provengono da due persone diverse scelte a caso da una popolazione di riferimento.23La formula può essere espressa come:

LR=P(E∣Hd)P(E∣Hp)

Dove:

P(E∣Hp) è la probabilità di ottenere l'evidenza vocale E (le caratteristiche misurate) data l'ipotesi della Procura (Hp), ovvero che le voci abbiano la stessa origine.
P(E∣Hd) è la probabilità di ottenere la stessa evidenza E data l'ipotesi della Difesa (Hd), ovvero che le voci abbiano origini diverse.

Un LR maggiore di 1 supporta l'ipotesi dell'accusa; un LR minore di 1 supporta quella della difesa. Un LR di 100, per esempio, significa che l'evidenza osservata è 100 volte più probabile se le voci sono della stessa persona. È fondamentale sottolineare che l'esperto fornisce solo l'LR, ovvero la forza della prova. Spetta poi al giudice, e non al perito, combinare questa prova con tutte le altre evidenze del caso per giungere a un giudizio sulla colpevolezza o innocenza.21 Sistemi software come IDEM, sviluppato dalla Fondazione Ugo Bordoni e in uso all'Arma dei Carabinieri, si basano proprio su questo quadro bayesiano per il confronto vocale.20Nel contesto legale italiano, la prova vocale si inserisce in un quadro normativo definito. Le registrazioni audio sono considerate prova documentale e la loro acquisizione è consentita dall'art. 234 c.p.p..32 Anche il saggio fonico (saggio fonico), ovvero il campione di voce di un indagato ottenuto per la comparazione, è ritenuto un documento la cui acquisizione non richiede particolari formalità, non essendo considerata un atto invasivo della libertà personale.32 La giurisprudenza ha persino stabilito che il rifiuto ingiustificato di un imputato di fornire un saggio fonico può essere valutato dal giudice come un argomento di prova a suo sfavore.28Sebbene lo standard Daubert statunitense – che impone al giudice di agire come "guardiano" della scienza, valutando se una tecnica è stata testata, pubblicata, se ha un tasso di errore noto e se gode di accettazione nella comunità scientifica – non sia formalmente adottato in Italia, la sua influenza è innegabile.33 La giurisprudenza italiana, in particolare quella della Corte di Cassazione, richiede sempre più spesso una "motivazione rafforzata" quando si tratta di prove scientifiche. Il giudice deve esplicitare il percorso logico che lo ha portato a ritenere affidabile una determinata tecnica, valutandone le basi scientifiche, il grado di consenso e l'affidabilità dell'esperto.21Tuttavia, il panorama giurisprudenziale italiano non è privo di contraddizioni. Emerge una tensione palpabile tra la spinta verso un maggiore rigore scientifico e un approccio più pragmatico, orientato all'efficienza processuale. Questa tensione è evidente in una serie di sentenze della Corte di Cassazione che hanno affermato un principio controverso: il contenuto di una conversazione intercettata può essere provato anche solo attraverso la deposizione testimoniale dell'ufficiale di polizia giudiziaria che ha effettuato l'ascolto, senza che sia indispensabile la trascrizione peritale.36 Questa linea giurisprudenziale, sebbene richieda che le intercettazioni siano state legittimamente autorizzate, rischia di svalutare il ruolo cruciale del perito fonico. Affidarsi alla memoria di un ascoltatore, per quanto esperto, introduce inevitabili rischi di errore, interpretazione soggettiva e bias cognitivi, in netto contrasto con l'oggettività e la riproducibilità richieste dall'analisi scientifica. Questa dicotomia riflette un dilemma fondamentale per il sistema giudiziario: il conflitto tra affidabilità e utilizzabilità della prova. Da un lato, la scienza forense si muove verso metodi sempre più sofisticati, probabilistici e cauti, che riconoscono e quantificano l'incertezza. Dall'altro, il sistema giudiziario ha bisogno di strumenti processuali agili e rapidi. La fonetica forense si trova esattamente al centro di questo scontro, un campo di battaglia dove si decide costantemente quale dei due principi debba prevalere.

Sentenza (Ruling No. & Year)	Principio di Diritto (Legal Principle)	Implicazione per la Perizia Fonica
Cass. Sez. Unite, n. 36747/2003	Una registrazione di una conversazione costituisce prova documentale ai sensi dell'art. 234 c.p.p. ed è pienamente utilizzabile.	Stabilisce l'ammissibilità fondamentale delle registrazioni audio come prova.
Cass. pen., n. 24178/2007	Un saggio fonico è un documento; la sua acquisizione non è un atto invasivo e non richiede formalità speciali.	Semplifica il processo per gli investigatori per ottenere un campione di voce noto per la comparazione.
Cass. pen., n. 22105/2023	Il rifiuto di un imputato di fornire un saggio fonico può essere utilizzato dal giudice come argomento di prova a suo carico.	Aggiunge peso all'importanza del saggio fonico e crea una scelta difficile per l'indagato.
Cass. sez. 3, n. 4759/2020 (e altre)	Il contenuto delle intercettazioni può essere provato attraverso la testimonianza dell'agente di polizia che le ha ascoltate; la trascrizione formale non è sempre necessaria.	Crea un importante punto di contesa, svalutando potenzialmente il ruolo del fonetista esperto e introducendo rischi di bias di memoria e imprecisione.
Cass. pen., n. 4349/2019	L'utilizzabilità di una registrazione è condizionata all'acquisizione del supporto originale per verificarne l'autenticità e l'affidabilità.	Rafforza la necessità di una corretta gestione delle prove e apre la strada all'analisi di autenticazione per rilevare manomissioni.

Mentre la fonetica forense continua a lottare per un pieno riconoscimento della sua complessità scientifica all'interno delle aule di tribunale, una nuova rivoluzione tecnologica si profila all'orizzonte, una minaccia che non mette in discussione solo l'affidabilità di una prova, ma la sua stessa natura.

Voci Sintetiche, Crimini Reali: La Nuova Frontiera dei Deepfake

La sfida storica della fonetica forense è sempre stata quella di tracciare una linea tra una voce e un corpo, di rispondere alla domanda: "Chi sta parlando?". Oggi, una nuova tecnologia sta emergendo con una domanda molto più radicale e inquietante: "Chi sta parlando è umano?". Questa tecnologia è quella dei deepfake audio, contenuti sonori iper-realistici generati dall'intelligenza artificiale che minacciano di scardinare le fondamenta stesse del riconoscimento vocale.37Un deepfake audio non è una semplice modulazione o un camuffamento della voce. È la creazione ex novo di un parlato sintetico che può imitare la voce di una persona specifica con una fedeltà sconcertante, replicandone il timbro, l'intonazione, le pause e persino il tono emotivo.39 Questo è reso possibile da due tipi principali di tecnologie basate su reti neurali profonde:

Sintesi Vocale (Text-to-Speech, TTS): Modelli avanzati come WaveNet di Google, Tacotron 2 o VITS possono prendere un qualsiasi testo scritto e convertirlo in un parlato che suona come se fosse stato pronunciato da una persona reale, la cui voce è stata usata per addestrare il sistema.37
Conversione Vocale (Voice Conversion, VC): Questi sistemi prendono una registrazione vocale di un "parlante sorgente" e ne modificano le caratteristiche per farla suonare come se fosse stata pronunciata da un "parlante target", pur mantenendo inalterato il contenuto linguistico originale.37

La minaccia non è più relegata alla fantascienza. È già una realtà criminale. Nel 2019, un'azienda energetica del Regno Unito è stata truffata per circa 220.000 euro. I criminali hanno utilizzato un software di deepfake audio per clonare la voce dell'amministratore delegato della casa madre tedesca e ordinare a un dirigente di effettuare un bonifico urgente.38 Questo caso emblematico dimostra la vulnerabilità estrema dei sistemi di autenticazione basati sulla voce e apre scenari spaventosi di frodi, ricatti, disinformazione e furti di identità. Per la fonetica forense, la sfida è esistenziale. Il paradigma tradizionale della disciplina può essere visto come una sorta di "balistica acustica": l'obiettivo è analizzare il "proiettile" (il segnale vocale) per risalire alla "pistola" che lo ha sparato (l'apparato fonatorio unico di un individuo). Il deepfake frantuma questo paradigma. Il "proiettile" audio viene ora creato dal nulla, generato da un algoritmo, senza una "pistola" biologica a cui poterlo ricondurre. Questo inverte la gerarchia delle domande forensi. Prima, il quesito era: "Questa voce appartiene al sospettato A o al sospettato B?". Ora, la domanda preliminare e ineludibile è: "Questa registrazione è autentica o sintetica?". Prima di poter anche solo pensare di identificare un parlatore, un perito deve essere in grado di autenticare la natura stessa del segnale. Il campo deve evolvere da una scienza dell'identificazione (collegare una traccia a una fonte) a una scienza dell'autenticazione (determinare se la traccia è genuina o artificiale). L'eco del fantasma di Unabomber, un criminale in carne e ossa che si nascondeva nel silenzio, viene sostituito dall'eco di una voce sintetica, un crimine che potrebbe non avere alcun autore umano tracciabile, ponendo una sfida ancora più profonda alla giustizia.

Contro-Intelligenza: La Corsa agli Armamenti tra Creazione e Rilevamento

Di fronte alla minaccia esistenziale dei deepfake, la comunità scientifica e tecnologica non è rimasta a guardare. È in corso una frenetica corsa agli armamenti tra la creazione di contenuti sintetici e lo sviluppo di metodi per rilevarli. Paradossalmente, l'arma principale in questa battaglia è la stessa intelligenza artificiale che ha creato il problema: l'IA viene usata per smascherare i prodotti dell'IA.41L'arsenale di rilevamento si sta espandendo su più fronti, combinando approcci reattivi e proattivi:

Analisi degli Artefatti Acustici: I modelli di IA generativa, per quanto sofisticati, non sono perfetti. Spesso lasciano dietro di sé minuscoli artefatti, delle imperfezioni nel segnale audio che sono tipicamente impercettibili all'orecchio umano ma che possono essere individuate da algoritmi di analisi specializzati.42 La ricerca si sta concentrando sull'identificazione di queste "impronte digitali" lasciate dal processo di generazione. Un'area promettente è l'analisi delle
caratteristiche fonetiche segmentali, ovvero quei suoni legati strettamente ai movimenti articolatori umani (labbra, lingua, velo palatino). Si presume che questi movimenti complessi e finemente coordinati siano più difficili da replicare fedelmente per un'IA, rendendo le loro imperfezioni un potenziale indicatore di sinteticità.44
Watermarking e Fingerprinting Audio: Un approccio proattivo consiste nell'incorporare una sorta di "marchio" digitale direttamente nel file audio al momento della sua creazione. Il watermarking inserisce una firma inaudibile e robusta all'interno dell'audio sintetico. Se questo audio venisse poi utilizzato in modo illecito, la presenza del watermark potrebbe provarne inequivocabilmente l'origine artificiale.39 Similmente, il
fingerprinting audio crea un identificatore unico per un campione vocale, permettendo di tracciarne l'uso e mitigare le duplicazioni non autorizzate.39
Sistemi di Autenticazione Multi-Fattore (MFA): La lezione più immediata e pragmatica impartita dai deepfake è che affidarsi a un singolo fattore di autenticazione, come la sola voce, è diventato troppo rischioso. La difesa più robusta consiste nell'implementare protocolli di autenticazione multi-fattore, che richiedono la combinazione di più prove di identità: qualcosa che sai (una password), qualcosa che hai (un token o uno smartphone) e qualcosa che sei (un dato biometrico come l'impronta digitale, il riconoscimento facciale o, appunto, la voce).38

Questa corsa agli armamenti è un ciclo perpetuo. Non appena viene sviluppato un nuovo metodo di rilevamento, i creatori di deepfake lavorano per aggirarlo, generando audio ancora più pulito e realistico. Questo costringe i ricercatori a sviluppare a loro volta algoritmi di rilevamento più sofisticati, in una spirale di complessità tecnologica senza una fine apparente.39 Non esiste una "pallottola d'argento", una soluzione definitiva che possa risolvere il problema una volta per tutte.In questo scenario, la tecnologia da sola non può essere la risposta completa. La difesa ultima risiede nel fattore umano. È necessaria una nuova forma di "alfabetizzazione mediatica", una consapevolezza diffusa che ciò che vediamo e sentiamo potrebbe non essere reale. La società deve coltivare uno scetticismo sano, una capacità di pensiero critico che ci spinga a mettere in discussione la provenienza e l'autenticità delle informazioni, specialmente quelle che suscitano forti reazioni emotive.46Il viaggio della fonetica forense ci ha portati lontano. Siamo partiti da un frammento di bomba su una spiaggia italiana, la prova più tangibile di un crimine. Abbiamo seguito la traccia biologica del DNA, la promessa di una certezza quasi assoluta. Ci siamo addentrati nella natura comportamentale della voce umana, con le sue complessità e incertezze. E siamo approdati alla frontiera del sintetico, del virtuale, dove la prova stessa rischia di dematerializzarsi.Questa traiettoria, dal fisico al biologico, dal comportamentale al sintetico, riflette la trasformazione più ampia dell'era digitale. La sfida per la giustizia non è solo tecnologica, ma epistemologica: una lotta per ridefinire il concetto stesso di "prova" in un mondo in cui l'evidenza può essere forgiata con perfezione e replicata all'infinito. La corsa agli armamenti contro i deepfake non è solo una battaglia tra algoritmi; è una lotta per garantire che il concetto di verità verificabile non diventi una vittima collaterale del progresso tecnologico. L'eco della voce umana, con tutta la sua fragile e imperfetta unicità, deve trovare il modo di farsi ancora sentire, distinguendosi dal rumore assordante e ingannevole delle sue imitazioni artificiali.

Bibliografia

Siamo Noi (TV2000) - Unabomber, la sopravvissuta Francesca Girardi: “Ricordo tutto”, , https://www.youtube.com/watch?v=V9qcRBCIYrk
380 | Ma perché si parla di una svolta nel caso Unabomber? - YouTube, , https://www.youtube.com/watch?v=VKNzZykI4s8
Fantasma - Il caso Unabomber - Podcast - Apple Podcasts, , https://podcasts.apple.com/it/podcast/fantasma-il-caso-unabomber/id1652721412
Italian Unabomber - Wikipedia, , https://en.wikipedia.org/wiki/Italian_Unabomber
Unabomber - Nutrimenti, , https://www.nutrimenti.net/libro/saggistica/igloo/unabomber/
TERRORE INVISIBILE. Il caso Unabomber. - Spreaker, , https://www.spreaker.com/episode/terrore-invisibile-il-caso-unabomber--62681542
Unabomber (Italia) - Wikipedia, , https://it.wikipedia.org/wiki/Unabomber_(Italia)
IL CASO UNABOMBER ITALIANO (LIVE INTEGRALE) | TONY IPANTS & JESUISIL, , https://www.youtube.com/watch?v=vH9X0U_Yj6U
Episodio 6: L'ingegnere - YouTube, , https://www.youtube.com/watch?v=vDqyMoPAYJ8
Episodio 7: 0.2mm - YouTube, , https://www.youtube.com/watch?v=MxKqdLffehk
Inchiesta unabomber, archiviazione per Zornitta - Sky TG24, , https://tg24.sky.it/cronaca/2009/03/02/Inchiesta_unabomber_archiviazione_per_Zornitta
Zornitta: "Non sono Unabomber, ma nessuno chiede scusa" - La vita in diretta 28/11/2018, , https://www.youtube.com/watch?v=mMWymG5cQS0
Caso Unabomber, Zornitta risarcito con 300mila euro per le false accuse: ma lo Stato impugna la cifra "troppo alta" - Il Riformista, , https://www.ilriformista.it/caso-unabomber-zornitta-risarcito-con-300mila-euro-per-le-false-accuse-ma-lo-stato-impugna-la-cifra-troppo-alta-324913/
Potrebbero riaprirsi le indagini sugli attentati dell'Unabomber italiano - Il Post, , https://www.ilpost.it/2022/11/23/indagini-unabomber-riapertura/
Riaperto il caso Unabomber in Italia grazie all'uso del DNA - ForensicNews, , https://www.forensicnews.it/riaperto-il-caso-unabomber-in-italia-grazie-alluso-del-dna/
Presentazione di PowerPoint - DMI Unict, , https://www.dmi.unict.it/~battiato/CF1213/2013_05_27_Beritelli_Seminario.pdf
Voiceprint analyses | EBSCO Research Starters, , https://www.ebsco.com/research-starters/applied-sciences/voiceprint-analyses
Evidence vel non The Non Sense of Voiceprint Identification - UKnowledge, , https://uknowledge.uky.edu/cgi/viewcontent.cgi?article=2493&context=klj
La perizia fonica per identificare voci e suoni - Periti Forensi, , https://www.peritiforensi.it/la-perizia-fonica-per-identificare-voci-e-suoni/
SUL RICONOSCIMENTO DEL PARLANTE IN AMBITO FORENSE - Sicurezza e Giustizia, , https://www.sicurezzaegiustizia.com/wp-content/uploads/2015/01/SeG_III_MMXIV_PAOLONI.pdf
La traccia vocale nelle indagini penali in Italia - Studi AISV, , https://www.studi.aisv.it/index.php/home/article/view/213/201
La perizia fonica per identificare voci e suoni nel mondo forense - ForensicNews, , https://www.forensicnews.it/la-perizia-fonica-per-identificare-voci-e-suoni-nel-mondo-forense/
Impronta vocale - Enciclopedia - Treccani, , https://www.treccani.it/enciclopedia/impronta-vocale_(Diritto-on-line)/
"Voiceprint" springs eternal - Language Log, , https://languagelog.ldc.upenn.edu/nll/?p=36412
Evidence - Voice Spectrography - Reliability of Voiceprints Not Established, Therefore Inadmissible - Windmere, Inc. v. Internat, , https://scholarship.shu.edu/cgi/viewcontent.cgi?article=2780&context=shlr
Voice Identification The Aural/Spectrographic Method | Owen Forensic Services, LLC, , https://www.owenforensicservices.com/voice-identification-the-aural-spectrographic-method/
Illusione e Scienza nella Fonetica Forense: Una ... - Mondo Digitale, , https://mondodigitale.aicanet.net/2014-5/articoli/04_Illusione_e_scienza_nella_fonetica_forense.pdf
Art. 220 - c.p.p - Oggetto della perizia - Avvocato.it, , https://www.avvocato.it/codice-di-procedura-penale-libro-terzo-titolo-ii-capo-vi-art220/
La Linguistica Forense: Prefazione - Studi AISV, , https://www.studi.aisv.it/index.php/home/article/view/205/193
Le competenze del Perito Fonico Proposta di Linee Guida dell'Associazione Italiana di Scienze della Voce - (Osservatorio sulla Linguistica Forense) - Forensics Group, , https://www.forensicsgroup.eu/wp-content/uploads/2019/08/OLF_Le-competenze-del-perito-fonico.pdf
(PDF) IL RICONOSCIMENTO DEL PARLANTE IN AMBITO FORENSE: UNO STUDIO INDIPENDENTE SUL SOFTWARE IDEM/SPREAD IN USO AI CARABINIERI - ResearchGate, , https://www.researchgate.net/publication/288808022_IL_RICONOSCIMENTO_DEL_PARLANTE_IN_AMBITO_FORENSE_UNO_STUDIO_INDIPENDENTE_SUL_SOFTWARE_IDEMSPREAD_IN_USO_AI_CARABINIERI
Art. 234 codice di procedura penale - Prova documentale - Brocardi.it, , https://www.brocardi.it/codice-di-procedura-penale/libro-terzo/titolo-ii/capo-vii/art234.html
Daubert Standard | Wex | US Law | LII / Legal Information Institute, , https://www.law.cornell.edu/wex/daubert_standard
Daubert in Detail: How the Admissibility Standard for Expert Testimony in Court Has Evolved, , https://www.faro.com/en/Resource-Library/Article/Daubert-in-Detail
Standard di Daubert e l'analisi dei Bite Marks, , https://www.simlaweb.it/bite-marks-e-daubert-standard/
Intercettazioni telefoniche, contenuto e interlocutori: per la Cassazione le trascrizioni e la perizia fonica sono inutili, basta la deposizione testimoniale della p.g. (di Riccardo Radi) - terzultima fermata, , https://terzultimafermata.blog/2023/04/25/intercettazioni-telefoniche-contenuto-e-interlocutori-per-la-cassazione-le-trascrizioni-e-la-perizia-fonica-sono-inutili-basta-la-deposizione-testimoniale-della-p-g-di-riccardo-radi/
Audio Deepfake Detection: What Has Been Achieved and What Lies Ahead - MDPI, , https://www.mdpi.com/1424-8220/25/7/1989
Deepfake Identity: The Future of Authentication Challenges - Privacy Culture, , https://privacyculture.com/news-article/50/deepfake-identity-the-future-of-authentication-challenges
Understanding Deepfake Voice Technology and its Impact | Resemble AI, , https://www.resemble.ai/deepfake-voice-technology-impact/
Audio Deepfake Detection: A Survey - arXiv, , https://arxiv.org/pdf/2308.14970
The Future of Deepfake Audio Detection: Social Media Monitoring or Fraud Prevention?, , https://www.validsoft.com/blog/the-future-of-deepfake-audio-detection-social-media-monitoring-or-fraud-prevention/
Digital Forensics Techniques to Detect Deepfakes – Cyber - University of Hawaii-West Oahu, , https://westoahu.hawaii.edu/cyber/forensics-weekly-executive-summmaries/digital-forensics-techniques-to-detect-deepfakes/
Trust Your Eyes and Ears: Overview of Audio & Video Deepfake Detection Tools, , https://www.respeecher.com/blog/trust-your-eyes-and-ears-overview-of-audio-video-deepfake-detection-tools
[2505.13847] Forensic deepfake audio detection using segmental speech features - arXiv, , https://arxiv.org/abs/2505.13847
Deepfake Voice Detection: An Approach Using End-to-End Transformer with Acoustic Feature Fusion by Cross-Attention - MDPI, , https://www.mdpi.com/2079-9292/14/10/2040
The State of Audio Deepfakes & Deepfake Detection - YouTube, , https://www.youtube.com/watch?v=meAlcmKN2zI

Commenti