Riconoscitore vocale basato sull’intelligenza artificiale
-
PROGETTO
RICONOSCITORE VOCALE BASATO SULL'INTELLIGENZA ARTIFICIALE (AI) -
OBIETTIVO
Migliorare l'efficienza del riconoscitore vocale automatico, basato su sistema di intelligenza artificiale, per garantire una migliore accessibilità in ambito lavorativo e sociale, a soggetti affetti da disabilità della voce. -
A CHI E' RIVOLTO IL PROGETTO
Persone con disabilità vocale -
SPONSORSHIP
Libera Università di Bolzano
TEMPO DI LETTURA: 2’
#inclusiaone #intelligenzaartificiale #riconoscimentovocale #patologia #lineeguida #tecnologia #ASR #barriere #evoluzionedigitale #sfidetecnologiche
RICONOSCITORE VOCALE BASATO SULL'INTELLIGENZA ARTIFICIALE (AI)
Qual è il grado di maturità?
Studi recenti evidenziano la necessità di strumenti di analisi del linguaggio affidabili, progettati su misura per chi è affetto da disturbi del linguaggio, in particolare in contesti multilingue e soggetti a distorsioni. Partendo da queste basi, Fondazione Pfizer ha supportato con una sponsorizzazione non condizionante la Libera Università di Bolzano, per una ricerca approfondita che integra la valutazione dell'Automatic Speech Recognition (ASR), ossia il riconoscimento automatico del parlato, il rilevamento di voci con patologie vocali e l'analisi delle caratteristiche necessarie per colmare le lacune delle tecnologie attuali. Ne derivano Linee Guida per lo sviluppo di sistemi di intelligenza artificiale ASR più inclusivi.
COSA È EMERSO
Limiti e opportunità
Dall'analisi effettuata è emerso che, contrariamente alle convinzioni attuali, gli ASR hanno prestazioni notevolmente scarse nel contesto delle voci patologiche, una sfida tecnologica che non viene affrontata in modo del tutto soddisfacente. Questo crea barriere notevoli per le persone con disabilità vocale, che non possono accedere alla maggior parte dei sistemi di intelligenza artificiale che si basano su ASR.
LE FASI DEL PROGETTO
Un'analisi approfondita ed efficace
Il progetto ha previsto 3 fasi principali:
FASE 1: DATA COLLECTION
La raccolta di campioni vocali (sia patologici che non patologici) di pazienti dell'Ospedale Cannizzaro di Catania, che ha incluso:
- La registrazione di circa 300 campioni di linguaggio, provenienti da individui con vari gradi di compromissione del linguaggio, per garantire la diversità nelle condizioni del linguaggio.
- La registrazione di circa 200 campioni di parlato, da individui sani in condizioni ambientali e acustiche simili al set di dati patologici, per rendere l'analisi dati ancora più affidabile e accurata.
FASE 2: VALUTAZIONE COMPARATIVA
La valutazione delle prestazioni dei modelli di rilevamento vocale, patologico e ASR, su set di dati di linguaggio patologico e sano, si è concentrata sulla loro risposta in relazione a varie distorsioni acustiche. L'analisi ha evidenziato lacune nelle prestazioni e ha identificato importanti aree di miglioramento nella gestione del linguaggio patologico.
FASE 3: ELABORAZIONE DELLE LINEE GUIDA
La compilazione di Linee Guida per migliorare l'uso dell'IA in un contesto medico/patologico. I risultati di questo progetto evidenziano diverse sfide e opportunità per migliorare le prestazioni ASR sul linguaggio patologico. Le raccomandazioni chiave includono:
- Incorporare tecniche appropriate di aumento dei dati, come rumore e variazione di tono, poiché la coerenza fonema-grafema influisce significativamente sulle prestazioni ASR.
- Garantire che tutti i modelli non siano sensibili a disturbi acustici misti, come riverbero combinato con alterazioni di tono.
- Affrontare il problema delle interferenze, in particolare nei modelli ASR più piccoli, utilizzando set di dati patologici più diversificati
- Allineare i sistemi ASR alla percezione uditiva umana per gestire complesse distorsioni acustiche.
- Aumentare l'attenzione sui modelli incorporati, essenziali per l'uso in contesti medici.
- Aumentare l'attenzione sulla raccolta di dataset su larga scala contenenti campioni vocali patologici/etichettati.
GLOSSARIO
-
ASR: il riconoscimento vocale, noto anche come riconoscimento vocale automatico (ASR), è una funzionalità che consente a un programma di elaborare il linguaggio umano in un formato scritto.
-
AI o IA: è l'acronimo che si usa per indicare l'Intelligenza Artificiale. Nel suo significato più ampio, è la capacità o il tentativo di un sistema artificiale (tipicamente un sistema informatico) di simulare una generica forma di intelligenza.
-
Disturbi del linguaggio: sono disturbi che implicano l'elaborazione delle informazioni linguistiche. I problemi che possono essere riscontrati possono coinvolgere la grammatica (sintassi e/o morfologia), la semantica (significato) o altri aspetti del linguaggio.