People looking through a wall of digital images

Agenti del cambiamento

Raja Bala: una visione per un futuro migliore

Raja è diventato uno dei nostri inventori più produttivi, grazie alla propria innata curiosità di sapere come funzionino le cose.

Sfruttare la forza della Computer Vision, la Visione Artificiale

Raja Bala è Principal Scientist della Visione Artificiale presso PARC, un’azienda Xerox. Durante il periodo trascorso a Xerox, Raja è diventato uno dei nostri inventori più produttivi grazie alla sua innata curiosità, che lo spinge a capire come funzionano le cose. Questo gli ha anche permesso di acquisire una conoscenza approfondita di come la visione artificiale cambierà il nostro modo di vivere.

E se un domani si potesse diagnosticare una malattia con un selfie? E se si potesse andare e tornare dal lavoro in auto senza dover toccare il volante? E se si potesse andare in un negozio, prendere i prodotti desiderati e uscire senza aspettare in coda? Con l’addebito automatico della spesa sul proprio conto corrente?

Non si tratta di fantascienza. È il mondo che Raja Bala sta aiutando a creare. Un mondo in cui i computer possano vedere, interpretare e analizzare tutto ciò che li circonda e utilizzare le informazioni per prendere decisioni in tempo reale e aiutare a risolvere problemi. Unisciti a noi per scoprire l’uomo dietro alla tecnologia.

Come hai iniziato a interessarti in visione artificiale?

Sono cresciuto in una casa in cui si dava grande enfasi a scienza e matematica. Mia madre era un’insegnante di scienze. Mio papà era un ingegnere. Ho sempre avuto una grande passione per la matematica (e anche un certo talento) ma non mi sono mai limitato a usare il “cervello sinistro”. Sono un musicista e un amante dell’arte. Quindi quando ho dovuto scegliere una carriera, ho deciso di cercare qualcosa che potesse soddisfare tutti i miei interessi, sotto ogni aspetto.

La visione artificiale non è era il mio primo interesse. Quando ho iniziato a lavorare a Xerox nel 1993, ero uno scienziato dell’imaging del colore. Al tempo, Xerox stava facendo una transizione dal bianco/nero alla stampa a colori. Ho guidato diversi progetti molto eccitanti per lo sviluppo di soluzioni per la gestione del colore per stampanti Xerox e scanner. Nel 2011, in seguito a un’acquisizione, ho individuato le opportunità e il potenziale della visione artificiale. Ho fatto la transizione e il resto è storia.

Puoi parlarci della Visione Artificiale e della sua importanza nel mondo di oggi?

La visione artificiale è la scienza con cui le macchine analizzano, interpretano ed estraggono informazioni utili da immagini e video, per poi utilizzarle per risolvere problemi nel mondo reale. Io e il mio team prendiamo immagini digitali o video e li trasformiamo in rappresentazioni matematiche che possano essere capite da un computer. Dopodiché insegniamo al computer a svolgere un certo compito utilizzando questa rappresentazione, come ad esempio percepire se l’immagine contenga un volto umano oppure no.

La visione artificiale esiste dagli anni ‘60, ma in principio era limitata dalla mancanza di accesso alle immagini digitali. L’analisi delle immagini era relegata a usi specifici come il campo medico e non ha mai avuto esposizione di massa. Ma, con l’avvento degli smartphones e aziende come Google e Facebook che forniscono facile accesso a grandi database di immagini ricercabili, l’importanza, la rilevanza e penetrazione nei mercati di consumo di massa sono aumentate. Oggi, l’abbondanza di dati sotto forma di immagini e video generati dai consumatori, unita ad algoritmi avanzati e hardware disponibili per processarli, sta cambiando il nostro approccio in questo campo.

Esistono ancora sfide da superare nel campo della visione artificiale, nonostante questi progressi?

Al momento, c’è grande interesse per le applicazioni del Deep Learning e della visione artificiale. Deep Learning è un sistema molto efficiente per estrarre dei modelli utili dalle immagini. Funziona fornendo una moltitudine di esempi a una rete neurale con un modello o una verità associati alle immagini. A questo punto la rete impara una serie di connessioni e fattori che le permettono di identificare lo stesso tipo di modello o verità nelle nuove immagini.

Quando hai una moltitudine di dati su cui lavorare, Deep learning può costituire un punto di svolta. Una rete profonda è capace di capire modelli estremamente complessi e relazioni fra immagini, il che le permette di realizzare con successo i compiti assegnati. Tuttavia uno dei problemi fondamentali è che il successo del deep learning dipende dalla disponibilità di set di dati con milioni di immagini ed etichette "ground truth". E molte applicazioni non hanno ancora accesso a molte immagini ed etichette.

Mettiamo che un medico, per esempio, voglia utilizzare il deep learning per diagnosticare una malattia specifica. Sarebbe necessario addestrare la rete profonda con milioni di immagini di organi contrassegnate a seconda dei diversi livelli di gravità della malattia. Un volume del genere non esiste. E anche se esistesse non si sarebbe mai in grado di riunire e impegnare un gruppo di esperti medici nel contrassegnare le immagini con etichette.

Quindi la domanda che ci dobbiamo porre è: possiamo trovare un approccio più creativo? Come possiamo modificare deep learning per prendere delle decisioni intelligenti basate su una conoscenza limitata?

Abbiamo deciso di rivedere alcuni dei modelli di base su cui abbiamo lavorato prima dell’era del deep learning, e li abbiamo usati per creare intelligenza e conoscenza pregresse sul compito e sull’ambiente in una rete profonda. Per insegnare a una rete profonda a riconoscere vasi sanguigni in immagini retiniche, ad esempio, suggeriamo alla rete di cercare sottili strutture curve che si diramano come un albero. Grazie a questi suggerimenti, la rete non solo richiede meno immagini per l’apprendimento, ma riesce anche a battere i migliori metodi di deep learning di oggi.

Non hai sempre lavorato per Xerox, corretto?

Vero. Dopo 22 anni in Xerox, ho deciso di mettermi alla prova in un nuovo ambiente lavorando per il gruppo di camera imaging per gli smartphone Samsung per sviluppare delle tecniche di computational imaging per dispositivi Galaxy e Note.

Cos’hai imparato da questa esperienza?

Ho imparato ad apprezzare la semplicità. La maggior parte dei prodotti Xerox viene utilizzata in un ambiente d’ufficio, dov’è possibile contare su un minimo di familiarità degli utenti con la tecnologia. Quasi tutti portano uno smartphone in tasca. Lavorando su questo tipo di prodotto di consumo, è necessario soddisfare ogni livello di esperienza tecnologica. Creare qualcosa che sia facile da usare sia per gli esperti che per i principianti. Un livello di semplicità che richiede migliaia di ore per essere ottenuto. Una quantità incredibile di lavoro è necessaria per far sì che ogni click faccia esattamente ciò che deve.

Tornando a un ambiente di ricerca Xerox, so cosa ci vuole per trasformare della scienza eccellente in un prodotto che avrà un certo impatto. Un conto è saper pubblicare un ottimo articolo sulla propria ricerca, un altro è far sì che la ricerca risulti in un prodotto utilizzabile dal consumatore finale: dev’essere elementare, semplice e più intuitivo possibile. Devi essere pronto a fare quel miglio in più.

Per esempio, mettiamo che tu stia lavorando su una app per la scansione intelligente dei documenti. La visione artificiale solitamente richiede parecchia potenza di elaborazione che non abbonda su un dispositivo mobile. Quindi se vuoi che la tua soluzione sia più di un semplice esercizio accademico, dovrai impegnarti a renderla non sono accurata, ma anche veloce ed efficace. Altrimenti la gente non la userà.

Quale dei vostri progetti ha avuto il più grande impatto nel mondo?

Il mio team ha collaborato con Proctor & Gamble per fornire la visione artificiale e la tecnologia alla base di “Olay Skin Advisor.” È una piattaforma mobile che fa un selfie di un consumatore, analizza la sua faccia e suggerisce raccomandazioni per prodotti per la pelle.

L’idea è di darti accesso a un dermatologo con cui parlare dei problemi della tua pelle quando vuoi. Ma è costosa. E prendersi cura della propria pelle è un processo costante, la maggior parte della gente non può permetterselo. E se uno volesse prendersi cura della propria pelle da solo? Vai in un negozio di prodotti di bellezza qualsiasi. Ci sono centinaia di prodotti fra cui scegliere. Può essere frustrante, confuso ed è facile fare la scelta sbagliata. Meno di due terzi delle donne sanno quali siano i prodotti ideali per il loro tipo di pelle.

P&G voleva risolvere il problema con un sistema di cura di bellezza personalizzato a basso costo. Quindi abbiamo sviluppato una app per cellulari facile da usare. Ci siamo chiesti: perché non approfittarsi del gran numero di consumatori che usano fotocamere ad alta definizione e le portano sempre con sé?

Per usare questa app, un consumatore deve prima di tutto farsi un selfie. La foto viene poi analizzata dalla visione artificiale per decidere se la qualità sia sufficiente per una analisi della pelle, controllando luce, distanza, espressioni facciali e l’assenza di ostruzioni. Se la foto passa tutti i controlli, la app analizza la pelle dell’utente, gli fà sapere cosa sta accadendo e suggerisce prodotti e cambiamenti necessari per prendersi cura di sé.

Abbiamo più di un milione di utenti attivi e ci sono stati cinque milioni di visite al sito dal lancio della app.

Qual è l’ambito della visione artificiale che ti suscita più entusiasmo?

La visione artificiale e l’intelligenza artificiale in generale sono un campo molto promettente al momento. Solo di recente questo campo è maturato abbastanza da poter influenzare il mondo in modo reale, significativo e pervasivo, da compiti di routine come controlli deposito automatici con la fotocamera dello smartphone a grandi applicazioni come auto a guida autonoma e diagnosi precoce delle malattie. Ci sono parecchie applicazioni possibili. E ci sono numerose sfide irrisolte dal punto di vista scientifico e ingegneristico nel rendere queste applicazioni accurate e affidabili.

La cosa che mi rende più entusiasta personalmente è continuare a lavorare su dei metodi di visione artificiale che attingano da modelli preesistenti del mondo e apprendano dagli esempi di dati. I modelli spaziano dal nostro lavoro sui vasi sanguigni della retina alla conoscenza di oggetti comuni, persone e leggi della natura. Grazie all’ambiente ricco e stimolante di Xerox per l’innovazione siamo sul punto di portare questi modelli del mondo reale in metodi di machine learning per creare una forma di apprendimento ibrido. Non riesco a immaginare niente di più eccitante.

Photo of a street with an arrow on it, overlaid with the words "Agents of Change"

Agenti del cambiamento

Tutti noi abbiamo cambiato il mondo. Ognuno di noi. Ogni volta che respiriamo, la nostra presenza si diffonde all’infinito.

Tuttavia solo pochi di noi hanno l’opportunità di cambiare in meglio altre vite. E ancora meno si trovano a farlo ogni giorno. È questa la sfida che affrontano ogni giorno i ricercatori Xerox: provare ad attuare un cambiamento.

In cambio, possiamo dar loro tempo e spazio per sognare. Oltre alle risorse necessarie per trasformare quei sogni in realtà, sia che stiano inventando nuovi materiali con funzionalità incredibili, sia che stiano utilizzando la realtà aumentata per migliorare la memoria dei malati di Alzheimer.

Siamo orgogliosi dei nostri “agenti del cambiamento” sparsi nei Centri di Ricerca Xerox nel mondo. Ecco alcune delle loro storie.

Innovazione Xerox

Scopri come alcune delle menti più brillanti del pianeta si incontrino nei nostri centri di ricerca mondiali per migliorare il futuro del lavoro. Per saperne di più