Google Lens: leggerà l'indecifrabile calligrafia dei medici

Da oggi la casa di Mountain View vuole tentare l’impossibile, leggere la calligrafia dei medici con Google Lens. Per chi non lo sapesse, questo servizio combina diversi sistemi presenti in informatica, comprese le potenzialità dell’intelligenza artificiale. L’obiettivo dichiarato è “collegare il mondo fisico intorno a te e l’universo digitale sul tuo dispositivo”. Infatti Lens permette di leggere testo e identificare oggetti sia all’interno di immagini che dalla reltà. Una funzione apparentemente nascosta nel nostro dispositivo smartphone, che puo’ far risparmiare sforzi e tempo. E che ora vuole impegnarsi nel decifrare l’incubo di ogni paziente alle prese con i medici: la loro calligrafia.

La nuova sfida di Google Lens

L’azienda americana ha annunciato che sta lavorando al progetto avvalendosi proprio dell’aiuto dei farmacisti. Sempre protagonisti di meme e battutte, quest’ultimi stanno dando una mano a quello che per ora è solo un prototipo. Tramite l’applicazione dunque, che fa uso di fotocamera, sarà possibile scattare foto alla prescrizione medica. Il sistema di Goolge processerà poi l’immagine per evitare possibili errori derivanti da trattamenti medici errati. Ma da Moutain View sono chiari:

nessuna decisione verrà presa basandosi solo sul risultato di questa tecnologia
Post Google India

Il ruolo di tecnici, tra specialisti sanitari e farmacisti stessi sarà ancora fondamentale per vagliare la calligrafria.

Come funziona Google Lens

L’app di google è uscita cinque anni fa, dapprima fornita a parte, poi integrata nella Fotocamera di Android. Basta inquadrare un oggetto per far partire il sistema Google lens; un sistema che è appunto in grado di effettuare ricerche in base a quanto visto con la fotocamera. Il servizio fornisce informazioni anche leggendo le etichette o testo scritto. Infatti, un esempio è la lettura di nome e password di una rete WiFi: letti i due elementi lens rintraccia la rete scansionata.

Non solo, l’app è anche in grado di calcolare mance e dividere il conto su di un menù. Oppure consigliare elementi dal menù stesso una volta riconosciuti. Può addirittura descrivere i passi di una ricetta partendo dal testo scritto (magari tramite sintesi vocale).

Una funzionalità interessante è quella che lo rende lo Shazam della moda, ossia Style Match. Questa opzione infatti funziona in modo tanto semplice quanto sorprendente ed efficace. Ancora una volta, inquadrando un capo d’abbigliamento, il sistema Google lens fornirà informazioni a riguardo. Notizie utili come il prezzo o il negozio dove si vende. Perchè difatti è in grado di svolgere il suo lavoro anche con una immagine instagram, la foto su un blog o rivista che sia. E può farlo anche con i mobili! Qualora poi non trovasse l’articolo specifico, l’app rimanda ad una serie di prodotti simili.

In ultimo arriviamo a quanto annunciato precedentemente e cioè la Smart Text Selection. Questa feature permette il copia-incolla di un testo ripreso con fotocamera da documenti reali o digitali. Da qui, l’idea di affrontare la sfida “calligrafia medici”. Ma come fa Google Lens ad interpretare informazioni dal mondo fisico attraverso il solo uso di un obiettivo? Se avete risposto o pensato all’intelligenza artificiale, beh avete indovinato!

L’AI dietro l’app di Google

Google Lens app fa largo uso delle così dette CNN o Convolutional Neural Network ( Reti Neurali Convoluzionali. Queste costituiscono la spina dorsale di molte applicazioni basate sulla computer vision. Lens utilizza le CNN per rilevare blocchi di testo coerenti come colonne o testo in uno stile o un colore uniformi. Poi, all’interno di ogni blocco, utilizza l’allineamento del testo, il linguaggio e la relazione geometrica dei paragrafi per determinare il loro ordine di lettura finale.

Un po’ come fa il cervello umano quindi, che opera delle semplificazioni per consentirci di riconoscere gli oggetti. E come quest’ultimo le CNN dividono il loro lavoro in più step, ognuno specializzato in un compito. Una rete neurale Convoluzionale perciò si divide in un blocco di input, i livelli nascosti (hidden layer) e il blocco output che fornisce il risultato. Ad attivare i livelli nascosti ci sono le funzioni di attivazione (es. RELU) che permettono ai primi di effettuare i calcoli.

Come si nota dalla “direzione” dei dati le CNN sono reti feed foward, ossia con flusso in avanti; le connessioni tra i nodi non formano cicli, cosa che le differenzia dalle reti nuerali ricorrenti. Ma le CNN sono diverse anche rispetto alle stesse reti feed foward. Infatti, sono proprio i livelli di convoluzione a caratterizzarle.

I livelli di convoluzione sono come dei “Zoom” all’interno delle reti stesse. Cioè tra un livello intermedio e l’altro estraggono informazioni dall’immagine selezionandone una particolare caratteristica. Questo grazie all’uso di appositi “filtri”. A seconda del tipo di filtro utilizzato è possibile quinidi identificare sull’immagine di riferimento cose diverse. I contorni delle figure, le linee verticali, le linee orizzontali, le diagonali, sono tutti esempi di ciò su cui si può fare un focus.

I possibili sviluppi di tale tecnologia

C’è da immaginarsi quindi le potenzialità e le modalità di applicazione degli strumenti di Google Lens in campo medico. Oltre alla questione della calligrafia del nostro medico, Google Lens potrebbe dare importanti risultati in campo diagnostico.

Ma d’altro canto l’uso di una tecnologia del genere potrebbe destare anche molte polemiche e preoccupazioni da parte del mondo sanitario. Ancora una volta, la parola spetta non solo agli specialisti di AI ma, come detto da Google, anche ad una piena collaborazione con i dottori.