Questo robot impara a muovere le labbra semplicemente guardandoti

Nei laboratori di ingegneria della Columbia University un team di ricercatori ha raggiunto un nuovo avanzamento nello sviluppo dei robot umanoidi, concentrandosi su uno degli aspetti più complessi della robotica: il movimento realistico delle labbra durante il parlato e il canto.

Il progetto nasce all’interno del Creative Machines Lab e segna la prima volta in cui un sistema autonomo riesce ad apprendere movimenti labiali naturali esclusivamente tramite apprendimento visivo, senza ricorrere a regole predefinite per fonemi o vocali. Una differenza importante rispetto agli approcci tradizionali, spesso responsabili di espressioni rigide e poco convincenti.

Il volto del robot utilizza una pelle sintetica morbida supportata da 26 micromotori miniaturizzati, una configurazione che consente di riprodurre variazioni sottili simili a quelle dei muscoli umani coinvolti nel parlato. In una prima fase, definita dai ricercatori come auto-esplorazione, il robot osserva migliaia di espressioni casuali riflettendosi in uno specchio, apprendendo la relazione tra comandi dei motori e le forme visibili del volto.

Una volta compresa la propria meccanica facciale, il sistema passa allo studio del linguaggio umano. Grazie a ore di video online con persone che parlano e cantano, il modello sviluppa una comprensione statistica del rapporto tra suoni e movimenti delle labbra. Questo processo avviene tramite un modello vision-to-action (VLA), capace di convertire l’audio direttamente in comandi sincronizzati dei motori, senza alcuna programmazione fonetica esplicita.

Contenuto non disponibile
Consenti i cookie cliccando su "Accetta" nel banner"

I risultati mostrano una sincronizzazione convincente delle labbra in più lingue e persino durante l’esecuzione di brani musicali, come quelli inclusi nell’album generato dall’IA del robot, intitolato Hello World. Alcune difficoltà restano, soprattutto con consonanti dure come la “B” o suoni labiali complessi come la “W”, ma i miglioramenti risultano evidenti. Secondo Hod Lipson, direttore del laboratorio, l’interazione continua con gli esseri umani permetterà al sistema di affinare ulteriormente le proprie capacità.

L’obiettivo va oltre l’intrattenimento. Un volto capace di esprimere sfumature emotive migliora la qualità della comunicazione tra uomo e macchina. Il ricercatore Yuhang Hu sottolinea come l’integrazione con sistemi di intelligenza artificiale conversazionale, come ChatGPT o Gemini, possa rafforzare il senso di comprensione reciproca, rendendo le interazioni più naturali e coinvolgenti.

Secondo Lipson, la ricerca sulla robotica ha privilegiato per anni locomozione, arti e manipolazione, ma trascurato l’importanza dell’espressività facciale. Tuttavia, in ambiti come istruzione, sanità e assistenza agli anziani, l’aspetto comunicativo potrebbe risultare determinante quanto le capacità meccaniche. Con una produzione globale di robot umanoidi prevista in forte crescita nel prossimo decennio, il realismo del volto avrà un ruolo centrale nell’accettazione sociale.