L’intelligenza artificiale al servizio della chimica farmaceutica

Dalla risoluzione delle prime strutture, utilizzando i raggi-X negli anni ’50, il campo delle strutture proteiche ha fatto enormi passi in avanti. Ora, grazie anche all’ottimizzazione della tecnica di microscopia crioelettronica, abbiamo a disposizione la struttura di più di 150.000 proteine nella banca dati Protein Data Bank (PDB). Un numero però ancora irrisorio rispetto alle decine di milioni di sequenze aminoacidiche depositate nell’Universal Protein database (UniProt).

Questo perché, mentre è molto semplice ottenere la sequenza aminoacidica di una proteina, ricavarne la sua struttura è ancora molto complicato ed è richiesto un approccio sperimentale spesso pieno di difficoltà,  dove ingenti investimenti di tempo e denaro sono all’ordine del giorno. Per questo motivo ancora oggi non sappiamo la forma tridimensionale di moltissime proteine. Alcune coinvolte anche in malattie umane, limitando la nostra possibilità di sviluppare farmaci in grado di legarsi a loro per modificarne la funzione patologica.

Tuttavia, a rigor di logica, non dovrebbe essere impossibile predire la struttura di una proteina conoscendone solo la sua sequenza. Come già postulato nel 1972 dal premio Nobel per la chimica Christian Anfinsen, la sequenza aminoacidica di una proteina da sola dovrebbe essere in grado di definire la struttura tridimensionale.  Nelle cellule infatti, le proteine sono in grado di assumere la loro forma finale in pochissimo tempo (a volte però aiutate da altre proteine chaperon), suggerendo che solo una piccola quantità delle quasi infinite possibili conformazioni possa realizzarsi in Natura (nel 1969 le conformazioni possibili per una qualsiasi proteina sono state stimate in più di 10 alla 300 dal biologo molecolare Cyrus Levinthal).

Il campo della predizione delle strutture proteiche nasce quindi per risolvere questo apparente paradosso. E, dal 1994, una competizione biennale chiamata “Critical Assessment of Structure Prediction” (CASP) si è posta come obiettivo quello di migliorare i metodi di predizione partendo dalla sola sequenza aminoacidica. Sottoponendo ai partecipanti sequenze di proteine la cui struttura non è ancora stata resa pubblica ma risolta, CASP permette una analisi oggettiva dello stato dell’arte, facendo quindi una valutazione del livello raggiunto dalla tecnologia. Livello che gli organizzatori per la prima volta quest’anno hanno riconosciuto permettere un’accuratezza di quasi il 90% durante la quattordicesima edizione di CASP.

Il merito di questo risultato va a Google, il quale, dopo circa 50 anni dalla prima formale formulazione dell’ipotesi di Anfinsen e diversi metodi sempre più sofisticati come Rosetta@home e I-TASSER, è forse riuscito a creare un sistema che, con buona approssimazione, è in grado di predire la struttura tridimensionale delle proteine partendo soltanto dalla sequenza aminoacidica.

Google, con il suo algoritmo di intelligenza artificiale AlphaFold, partecipa a CASP dal 2018, e già allora aveva stupito vincendo subito la competizione. Il livello del 2018 è però stato ampiamente superato dalla nuova iterazione di AlphaFold, raggiungendo livelli che ricercatori in giro per il mondo considerano rivoluzionari. Sebbene i dettagli del metodo non siano ancora stati divulgati appieno, una pubblicazione scientifica a riguardo è in fase conclusiva.

Le possibili ricadute di questi risultati potrebbero essere molteplici. Uno dei campi in cui potrebbe avere più effetto l’approccio descritto è quello della chimica farmaceutica e della scoperta di nuovi farmaci in generale. Dalla seconda metà degli anni ‘80, grazie soprattutto alla spinta di chimici dotati di grande intuizione, come Joshua Boger (Merck e Vertex Pharmaceutical, la cui avventura farmacologica è raccontata in modo molto suggestivo nel libro “The Billion Dollar Molecule: The Quest for the Perfect Drug”), il disegno razionale di farmaci si basa infatti sulla conoscenza della struttura delle proteine bersaglio.

AlphaFold, un domani, potrebbe permettere di predire la struttura delle proteine, superando le necessità sperimentali di base, velocizzando il processo inventivo, tema quanto mai attuale durante questa pandemia. Sebbene il genoma del virus SARS-CoV-2 sia stato sequenziato molto velocemente, la struttura di alcune delle relative proteine virali è stata resa disponibile soltanto diversi mesi dopo, ritardando per esempio, ma è solo uno dei tantissimi esempi possibili, lo sviluppo di molecole che potrebbero legarsi alla oramai famosa proteina spike del virus, con lo scopo di limitare la virulenza del microbo.

In attesa di quel giorno, i ricercatori di tutto il mondo sono intanto curiosi di testare in modo indipendente le potenzialità di AlphaFold, per capirne appieno i limiti e le possibilità. 

Luca Colnaghi, PhD

Unità di Regolazione Biologica
Dipartimento di Biochimica e Farmacologia Molecolare
Istituto di ricerche farmacologiche “Mario Negri”
&
Laboratorio Morte Neuronale e Neuroprotezione
Dipartimento di Scienze Farmacologiche e Biomolecolari
Università degli Studi di Milano

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *

Questo sito usa Akismet per ridurre lo spam. Scopri come i tuoi dati vengono elaborati.