Agenti del cambiamento

Naila Murray: insegnare alle macchine a vedere

“Se vogliamo progettare macchine davvero intelligenti, devono essere in grado di formulare opinioni soggettive.”

Insegnare alle macchine a vedere

La Visione Artificiale è un ramo importante dell’Intelligenza Artificiale. I progressi nel modo in cui le macchine osservano e interpretano l’ambiente circostante potrebbero generare il tipo di avanzamenti tecnologici che, fino ad ora, abbiamo visto solo nei film di fantascienza.

Ma le macchine saranno mai davvero in grado di vedere? E cosa significa tutto ciò? Inoltre, le macchine dovrebbero cercare di replicare i processi neurali della vista umana oppure sarebbe meglio iniziare tutto daccapo?

These are the kind of questions Naila Murray considers every day with her team in the Computer Vision group at Xerox Research Centre in the French city of Grenoble.

Cosa significa possedere la vista?

La vista umana è notoriamente difficile da riprodurre. Ecco perché molti esperti di visione artificiale hanno scelto di ignorare del tutto il sistema visivo umano. Dopo tutto, le macchine non potrebbero essere progettate per vedere il mondo in modo completamente diverso e meglio rispetto all’occhio umano?

Naila Murray, cresciuta a Trinidad e Tobago, ritiene che questa mentalità non sia più prevalente tra gli esperti di visione artificiale. C’è stato invece “nuovamente un avvicinamento al sistema visivo umano per trarre ispirazione.”

Nalia e i suoi colleghi stanno cercando di dotare le macchine di opinioni simili a quelle umane riguardo alle osservazioni che effettuano, arrivando persino a insegnare loro ciò che debba essere considerato “bello”. Nalia desidera inoltre aiutare i computer a capire ciò su cui devono focalizzarsi mentre osservano delle scene.

Eyeball with gears

Si tratta di un lavoro rivoluzionario nel campo della visione artificiale, tradizionalmente concentrata sui dettagli semantici od obiettivi di un ambiente. “In passato non ci siamo concentrati così tanto sulle proprietà più soggettive, come l'estetica e la rilevanza visuale, ovvero ciò che cattura l’attenzione nelle immagini,” spiega Naila. “Questi tipi di proprietà superano l’obiettività e sono molto interessanti. Se vogliamo progettare macchine davvero intelligenti, devono essere in grado di formulare opinioni soggettive.”

L’ispirazione dai fotografi

Per portare avanti il loro lavoro, Naila e i suoi collaboratori si sono rivolti a una online community di fotografi che commentano le opere reciproche. Naila desiderava sfruttare le opinioni e competenze del sito per insegnare a una macchina o a un algoritmo come commentare un’immagine. A tal fine ha utilizzato il machine learning, un metodo di modellazione dei dati che consente ai computer di apprendere senza essere programmati in modo esplicito. Si tratta di un campo che sfrutta l’enorme quantità di dati disponibili nel mondo moderno, così come dal continuo aumento di potenza di elaborazione.

Spiega Naila: “In passato, i ricercatori nel campo della visione artificiale fornivano informazioni in modo programmatico a un algoritmo riguardo alle caratteristiche delle immagini da considerare belle. L’algoritmo cercava quindi di utilizzare queste caratteristiche per prevedere se un’immagine fosse bella.” Tuttavia, con il machine learning, i computer possono apprendere da soli le informazioni necessarie.

“Noi ci siamo limitati a fornire un algoritmo contenente le immagini e i relativi commenti, chiedendo al computer di replicare i commenti. Abbiamo presupposto che, se 100 persone concordano sul fatto che un’immagine sia bella, essa lo sia davvero.

Three views of a highway

“Ovviamente, nella valutazione di un ritratto, i tipi di giudizi estetici applicabili non sono gli stessi di un paesaggio.  Nella foto di un paesaggio, ci si potrebbe concentrare su caratteristiche quali la complessità della composizione e i punti di fuga. Nella valutazione di un ritratto le regole sono diverse. Questi sono aspetti che una macchina scoprirebbe analizzando più esempi.

“Ovviamente i giudizi estetici sono formulati in primo luogo da esseri umani. Ciò che abbiamo notato è che molte caratteristiche intuitive, oppure che sono già delle regole generali, sono vere.”

Un rapporto con le macchine

L’interesse di Naila per la visione artificiale risale ai tempi della sua laurea in ingegneria elettronica presso la Princeton University. “Mi interessavano molto le macchine autoguidate, ovvero le macchine in grado di operare in modo autonomo in un ambiente, e mi interessava capire come creare queste macchine. Decisi di prendere un master in intelligenza artificiale e visione artificiale.

Perché? Perché la visione artificiale sfrutta molto l’intuizione della percezione visiva umana ma è, allo stesso tempo, molto complessa. La percezione umana ci consente di svolgere attività scontate quali il riconoscimento degli oggetti, tuttavia si è rivelato estremamente difficile fare in modo che una macchina possa raggiungere lo stesso livello di accuratezza. La scelta delle informazioni utili per addestrare le macchine all’osservazione è affascinante.

“Per esempio, l’uomo è in grado di identificare correttamente il colore di un oggetto in vari tipi di illuminazione. Fuori potrebbe esserci il sole. Potrebbe essere buio. Potrebbe esserci la nebbia. Tuttavia, siamo sempre in grado di riconoscere in modo accurato i colori. Nel caso di un computer, questa variazione è difficile da gestire, ma il nostro sistema visivo è in grado di adattarsi automaticamente ai cambiamenti dell’ambiente circostante.”

Eyeball with a brain in the pupil

Deep learning

Lo studio graduale del sistema visivo umano è stato un’enorme fonte d’ispirazione per Naila quando definiva modelli di visione artificiale per il suo dottorato.

Il passaggio al “deep learning”, un ramo secondario del machine learning che comprende più livelli di elaborazione dei segnali, è stato per lei naturale. Spiega Naila: “Alcuni metodi di deep learning utilizzano reti neurali artificiali, ispirate al sistema visivo del nostro cervello. Le reti utilizzate nella visione artificiale non sono uguali ai modelli biologici, tuttavia ne possiedono l’ispirazione di base e l’estrazione delle informazioni gerarchiche.”

A man's eyes

Naila si affida al deep learning per risolvere un’altra parte dell'enigma visivo dei computer. Vuole aiutare le macchine a decidere che cosa guardare all’interno del loro campo visivo. L’importanza di quest’area della ricerca della visione artificiale è molto chiara. Per esempio, le macchine che devono muoversi autonomamente in tempo reale necessitano di algoritmi efficienti per focalizzare la propria attenzione visiva. E proprio come gli esseri umani danno la priorità all’attenzione visiva per dedicare l’intelligenza a cose più importanti, anche le macchine devono essere in grado di riconoscere gli stimoli visivi che più meritano l’utilizzo del loro potere di elaborazione.

Dirigere lo sguardo di una macchina

Spiega Naila: “I nostri occhi osservano costantemente il nostro campo visivo, proprio come i sistemi visivi informatici. Immaginate che una macchina debba rintracciare una persona attraverso un video. Se il video è stato filmato all’esterno, la macchina può ignorare il cielo e concentrarsi sulla parte inferiore dell’immagine. Io e i miei colleghi stiamo utilizzando tecniche di deep learning per replicare le modalità di attenzione necessarie in tali scenari.”

Abbiamo quindi utilizzato un insieme di dati raccolti mentre le persone osservavano una serie di immagini alla ricerca di qualcosa di specifico. Abbiamo fornito queste immagini e i relativi dati a un algoritmo di deep learning che ha addestrato una rete neurale convoluzionale a riprodurre i pattern dell’attenzione. L’esperimento è riuscito e le mappe di attenzione artificiale replicano molto bene i dati raccolti.”

Naila sta studiando come queste ricerche possano essere applicate ai sistemi che aiutano le autorità, oppure nei programmi di pedaggio urbano e car pooling della polizia. Il suo team sta aiutando a stabilire quanti passeggeri si trovino in una vettura eliminando le informazioni di sfondo non rilevanti e rendendo i sistemi più accurati.

Cars on the highway

Il team di Naila sta anche aiutando a creare un’applicazione di realtà aumentata utile per chi deve guidare vetture con cui non ha familiarità. L’app per dispositivi mobili consente agli utenti di eseguire una scansione degli interni della vettura affinché la funzione di determinati pulsanti compaia sullo schermo. “Quando si sa cosa la gente cerca nelle auto, per esempio il sistema multimediale sul cruscotto, il modello può essere addestrato a individuare queste aree per consentire all’app di focalizzarsi velocemente sulle aree che probabilmente contengono le funzionalità d’interesse.”

La collaborazione tra esperti di IA

Naila prevede che il campo della visione artificiale dipenda sempre più dalla collaborazione interdisciplinare tra i diversi campi dell’Intelligenza Artificiale. Il suo gruppo sta già studiando le interazioni tra immagini e testi insieme ai ricercatori dell’elaborazione del linguaggio naturale. Una recente novità di Facebook che aiuta gli utenti ipovedenti a “vedere” le immagini descrivendole in un modo che può essere letto da un lettore di schermo ha colpito l’attenzione di Naila.

Man working at a desk

“Qui è ovvia l’interazione tra tre cose. La visione artificiale comprende ciò che c’è nell’immagine, la generazione di linguaggio naturale lo descrive in parole e la generazione vocale lo trasforma in espressione orale. Ha senso che queste cose lavorino insieme.

C’è molto lavoro nel campo della linguistica su come interpretare un discorso, estrarre le parole e riassumerle. Di fatto, molti dei modi in cui è possibile interpretare un testo possono essere utilizzati con successo per interpretare le immagini.

Il campo della visione artificiale è sempre stato molto collaborativo. Direi che sta diventando più importante perché stiamo giungendo a un livello di complessità dal quale potremo affrontare problemi più complessi con più angolazioni.”

Insegnare ai computer a pensare

Di fatto, Naila e centinaia di altri scienziati e ingegneri di Xerox, stanno cercando di rendere più intelligenti i computer. Fino a che punto e quanto velocemente Naila vede progredire questa intelligenza?

“Negli ultimi quattro anni, abbiamo attraversato un’enorme trasformazione nella visione artificiale. I cambiamenti possono essere così rapidi da poter affermare che tra 20 anni avremo assistito a qualcosa di realmente affascinante, sebbene non mi aspetti che ciò avvenga nel futuro immediato.

Non amo fare previsioni Ma sono sempre molto interessata a quella che sarà la prossima innovazione. Un progetto non si conclude mai realmente nel campo della ricerca, ci si chiede sempre “Come potrei migliorarlo?” o “Come si declina in questo contesto?” È questo ciò che penso quando guardo al futuro.

Uno dei motivi per cui lavoro per Xerox è che l'azienda è impegnata a creare soluzioni innovative in grado di cambiare positivamente le vite umane. Il mio lavoro consiste esattamente nel pensare a nuovi modi per far sì che ciò avvenga.”

Agents of change

Abbiamo tutti cambiato il mondo. Ognuno di noi. Ogni volta che respiriamo, la nostra presenza si diffonde infinitamente.
Tuttavia solo pochi di noi hanno l’opportunità di cambiare in meglio altre vite. E ancora meno si trovano a farlo ogni giorno. È questa la sfida che affrontano ogni giorno i ricercatori di Xerox: provare ad attuare un cambiamento.
In cambio, offriamo loro il tempo e lo spazio per sognare, oltre alle risorse necessarie per trasformare quei sogni in realtà, sia che stiano inventando nuovi materiali con funzionalità incredibili, oppure stiano utilizzando la realtà aumentata per migliorare la memoria dei malati di Alzheimer.
Siamo orgogliosi dei nostri “agenti del cambiamento” sparsi nei Centri di Ricerca Xerox in tutto il mondo.