L'intelligenza artificiale di Google che predice la struttura delle proteine

L’attività svolta da Google negli ultimi tempi in ambito di ricerca non ha eguali. Quello che descriveremo oggi è l’algoritmo di intelligenza artificiale che ha portato Google a prevedere la struttura delle proteine. Si tratta di una problematica molto dibattuta nel mondo della scienza da oltre 50 anni. Il problema era a tal punto sentito da spingere la comunità scientifica nel 1994 ad introdurre una competizione globale per individuare una possibile soluzione.

File:Proteína MSK1 .gif - Wikimedia Commons

La competizione in questione è la CASP (Critical Assessment of protein Structure Prediction) e come anticipato si svolge a livello globale ogni due anni. Google con il suo gruppo di ricerca DeepMind, ha preso parte alla sperimentazione a partire nel 2018. In pochi anni lo studio messo a punto ha portato un progresso senza precedenti nella capacità dei metodi computazionali di prevedere la struttura delle proteine.

Genesi della problematica

Le proteine, sono molecole presenti in tutti gli organismi viventi. Sono costituite da catene di amminoacidi (21 in totale) che si ripiegano su se stesse per dare loro una forma ben precisa. Come le lettere dell’alfabeto formano le parole così gli amminoacidi possono svilupparsi in molteplici modi per formare le proteine.

Durante il discorso di premiazione, il Premio Nobel per la Chimica del 1972, Christian Anfinsen, asserì che in teoria, la sequenza di amminoacidi di una proteina potrebbe determinare completamente la sua struttura. Questa ipotesi ha scatenato una ricerca quinquennale in grado di prevedere computazionalmente la struttura 3D di una proteina basata esclusivamente sulla sua sequenza di amminoacidi 1D. L’idea consisteva nel sostituire questa nuova tipologia di ricerca come alternativa complementare ai metodi sperimentali costosi e dispendiosi di quegli anni.

Credit:http://www.bmscience.net. La struttura di una proteina, dalla semplice catena di amminoacidi alle strutture più complesse.

L’idea di prevedere la struttura di una proteina calcolando semplicemente tutte le possibili combinazioni in cui sarebbe possibile trovare la sequenza di amminoacidi venne scartata subito. Si calcola che per individuare il numero di tutte le possibili configurazioni di una tipica proteina mediante il calcolo della forza bruta ci vorrebbe più tempo dell’età dell’universo conosciuto. Un tempo decisamente infinito. Quasi come prevedere la divina commedia conoscendo le lettere dalla A alla Z.

Conoscere la struttura di una proteina rappresenta un passo avanti nel mondo scientifico. Dalla loro struttura, infatti, è possibile determinare quali funzioni verranno svolte. Prevedere quale sarà il suo aspetto quindi consente di ottenere un vantaggio. Un esempio può essere quello della proteina Spike del Sars-CoV-2 che rende così temibile il COVID-19, che può essere combattuta conoscendone esattamente il comportamento.

In che modo gli algoritmi di intelligenza artificiale hanno consentito a Google di prevedere la struttura delle proteine?

Google sviluppa AlphaFold

Il team di progetto si è concentrato prevalentemente di studiare lo sviluppo di proteine senza utilizzare come modelli precedentemente conosciuti. L’aspetto straordinario sta nel grado di accuratezza ottenuto. Il nome del software di progetto è AlphaFold, ormai giunto alla versione numero 2 che è quella sulla bocca di tutto il mondo scientifico.

L’approccio utilizzato è quello di adoperare reti neurali profonde per prevedere le proprietà di una proteina a partire dalle sue proprietà. In particolare le due proprietà prese in esame dalla rete neurale sono:

le distanze tra le coppie di amminoacidi;
gli angoli tra i legami chimici che li collegano.

Struttura dell'algoritmo di intelligenza artificiale sviluppato da Google DeepMind per la predizione della struttura delle proteine — Credit:https://deepmind.com. Struttura dell’algoritmo sviluppato da Google DeepMind

L’addestramento della rete neurale è in grado dunque di prevedere una distribuzione delle distanze tra ogni coppia di amminoacidi. Queste probabilità sono state poi combinate in un punteggio che stima l’accuratezza di una struttura proteica nota. Una seconda rete neurale è stata poi utilizzata per stimare quanto è vicina la struttura proposta alla risposta giusta.

Il metodo proposto si basa su tecniche già note nella biologia strutturale, poiché consiste nel sostituire ripetutamente pezzi di una struttura proteica con nuovi frammenti proteici. La novità risiede nell’idea di generare nuovi frammenti, utilizzati per migliorare continuamente il punteggio della struttura proteica proposta.

L’algoritmo ha potuto sfruttare un enorme dataset di addestramento. Infatti il campo della genomica è piuttosto ricco di dati grazie alla rapida riduzione del costo del sequenziamento genetico. Di conseguenza, gli approcci di deep learning al problema della previsione che si basano sui dati genomici sono diventati sempre più efficienti negli ultimi anni. Lo studio così condotto consentirà all’ algoritmo di intelligenza artificiale sviluppato in tempi così rapidi da Google di conoscere tutte le strutture possibili di proteine.

DeepMind il laboratorio di Google

DeepMind è una start-up inglese di ricerca nata nel 2010 ed acquisita da Google nel 2014. In seguito alla sua acquisizione ha modificato il suo nome in Google DeepMind. Sebbene inizialmente il lavoro svolto dall’azienda fosse prevalentemente legato al mondo dei videogame, nel 2018 il focus del lavoro venne spostato sulla ricerca scientifica e dell’etica. Già durante la sua prima partecipazione al CASP, vinse il premio per i risultati ottenuti superando software dalla grande esperienza.

Negli ultimi anni è stata lanciata anche l’unità DeepMind Ethics and Society che si concentra prevalentemente sulle questioni etiche introdotte dall’utilizzo dell’intelligenza artificiale.

Siamo certi che sentiremo ancora parlare oltre di questi progetti e dei risultati che verranno di volta in volta divulgati.