Microsoft: ecco l’intelligenza artificiale che può disegnare partendo da un testo

Microsoft ha presentato una nuova tecnologia di intelligenza artificiale capace di disegnare qualunque cosa gli venga descritta da un testo: si tratta di un’evoluzione di tentativi già percorsi, sia da Microsoft, sia da altre realtà, che è in grado di mostrare un miglioramento di tre volte rispetto a quanto possibile ottenere con le versioni precedenti.

La tecnologia sviluppata da Microsoft è in grado di generare qualsiasi tipo di immagine, da scene reali a riproduzioni fantasiose. Il “drawing-bot“, come viene chiamato dall’azienda di Redmond, è stato allenato su un vasto dataset di immagini in maniera tale che potesse apprende come collegarle alle rispettive parole. Vengono usati due modelli di machine learning, uno per generare immagini dalle descrizioni testuali e uno che parte dalle descrizioni per giudicare l’autenticità delle immagini generate. Lavorando in tandem questi due modelli possono creare immagini di maggior qualità rispetto a quanto possibile fino ad ora.

Il bot in particolare avrebbe dimostrato la capacità di disegnare anche interpretando frasi più complesse: laddove altre tecnologie potrebbero essere in grado di disegnare un soggetto leggendo la parola corrispondente, la qualità dell’immagine potrebbe paradossalmente peggiorare se alla parola viene aggiunta una descrizione complessa con altri elementi e colori. Interessante è inoltre la capacità del bot di completare un disegno anche se non vengono menzionati dettagli specifici, mostrando quindi una sorta di buonsenso e di immaginazione.

La generazione di immagini a partire da un testo può trovare applicazione nel concreto come una sorta di assistente virtuale per disegnatori e progettisti, o come strumento per fotoritocco basato su comandi vocali.

Attualmente comunque si tratta di una tecnologia ancora in fase di sviluppo e studio, poiché in svariati casi mostra ancora alcune imperfezioni nella creazione dei disegni che suggeriscono chiaramente che si tratta di immagini create da un computer e non da un essere umano.

“Perché l’intelligenza artificiale e gli esseri umani possano coesistere dobbiamo trovare un modo per interagire. E il linguaggio e la vista sono le due modalità più importanti perché uomini e macchine possano interagire” ha commentato Xiaodong He, ricercatore per il Deep Learning Technology Center di Microsoft.