25 anys del Genoma Humà: l’IA i la química biològica irrompen per ajudar a desxifrar els secrets del genoma

  • Un equip on participa l’IDIBELL lidera una iniciativa global per ajudar a entendre el genoma amb l’ajuda de l’IA i la química biològica, i poder facilitar així el descobriment de fàrmacs.
  • El projecte aposta per la ciència oberta en la creació d’una base de dades massiva de compostos químics accessible a tothom amb la qual entrenar diferents models d’IA.
Quimica Antolin IA NOTI

Ja fa 25 anys que es va completar la que va ser una de les grans fites de la Big Science, la ciència de gran escala que es va obrir pas a mitjans del segle passat. El Projecte del Genoma Humà (HGP) va ser un esforç conjunt de recerca internacional dedicat a desxifrar la seqüència del genoma humà i identificar-ne els aproximadament 20.000 gens que conté. I es va aconseguir: el resultat final va ser una seqüència de referència que cobreix el 99% de les regions del genoma humà que tenen gens. Sent pública i accessible per a tothom, des de llavors qualsevol era capaç de llegir el nostre codi genètic.

Ara bé, de llegir-lo a entendre’l hi ha un pas. Conèixer l’ordre en què es disposen les quatre lletres del genoma (A, C, G, T) al llarg de tota la seqüència, no ho fa pas intel·ligible. Fer-ho demana més investigació, centrada no només a llegir les lletres que conformen el codi de cada gen, sinó més aviat a entendre la funció que tenen. Els gens són les instruccions per a crear proteïnes, i les proteïnes són les encarregades de dur a terme les funcions que ens fan ser qui som. Entendre què diuen les instruccions dels gens (i, per tant, què estan dissenyades per fer les proteïnes que codifiquen) és essencial per entendre els processos bioquímics que es donen diàriament al nostre cos. I això és clau per desxifrar l’enigma de moltes malalties: si sabem què passa al nostre organisme quan estem sans, podrem saber què falla quan estem malalts.

El problema és que, malgrat tenir tota aquesta informació, la majoria de proteïnes que s’estudien son les mateixes que abans del HGP. Tenim bones eines per estudiar aquestes proteïnes i sabem que son importants, però queden “un 30% dels gens que no sabem què fan perquè ningú els estudia”, explica el Dr. Albert Antolín, cap del grup de recerca en Química mèdica i disseny de fàrmacs de l’IDIBELL. “La realitat és que si no disposem de les eines adequades, l’incentiu per investigar sobre proteïnes poc estudiades és baix”, afegeix.

 

Un canvi d’enfocament: i si s’utilitza l’IA per descobrir noves eines químiques?

Ara, però, sembla que s’hagi trobat la manera de beneficiar-se de la Intel·ligència Artificial (IA) per atacar aquest repte. Per posar fil a l’agulla, un equip on participa l’IDIBELL ha posat en marxa, després d’uns anys de proves de concepte, un projecte revolucionari per generar grans quantitats de dades de les molècules que interaccionen amb les proteïnes i, amb l’ajuda de l’IA, desenvolupar noves eines químiques per estudiar-les. Els detalls del projecte en qüestió estan explicats a l’article que han publicat recentment a la revista científica Nature Reviews in Chemistry.

El projecte s’emmarca al Structural Genomics Consortium (SGC), un consorci publicoprivat mundial format per universitats i empreses farmacèutiques. L’objectiu que té és facilitar el descobriment de la funció de les proteïnes del genoma, de manera que es pugui accelerar el descobriment de nous fàrmacs per malalties que encara no tenen cura. Tornem a la mateixa filosofia: si es descobreixen els compostos que interaccionen amb les proteïnes, es tindrà una manera fàcil d’estudiar-ne la funció i, alhora, se sabrà com modular-les perquè facin de manera correcta la funció per la qual estan programades.

 

Entrenar l’IA amb dades experimentals

El projecte s’emmarca dins una iniciativa ambiciosa, Target 2035, que pretén descobrir un compost químic per a cada proteïna humana per l’any 2035. Per fer-ho, cal entrenar els models d’IA recollint un gran nombre de dades experimentals. Les dades de les que es disposa ara són insuficients: no n’hi ha prou per entrenar els models adequadament, que de moment només poden practicar amb conjunts de dades petits i fragmentats. Per això, com explica el Dr. Antolín, “L’objectiu durant els pròxims cinc anys és generar una quantitat enorme de dades per crear models d’IA més precisos”.

A més quantitat de dades, major serà la precisió. Per aconseguir-la, s’utilitzaran tècniques de cribratges avançades que creuaran experimentalment més de 1000 proteïnes del genoma humà contra milers de milions de compostos químics durant els pròxims cinc anys. A llarg termini, la idea és que aquestes dades permetin entrenar un model fundacional d’IA que faciliti assolir l’ambiciós objectiu de Target 2035.

 

Ciència oberta a tothom

El projecte 2035 es troba dins una iniciativa de ciència oberta. Les dades que se n’extreguin podran ser utilitzades per qualsevol centre de recerca o empresa farmacèutica per entrenar la seva IA i, així, facilitar i accelerar el descobriment de nous fàrmacs. “És molt important que la ciència fonamental sigui oberta i que tothom pugui accedir a aquesta informació”, apunta el Dr. Antolín. I afegeix, “La recerca en moltes malalties requereix assajos clínics que són molt costosos. La col·laboració publicoprivada accelera aquest procés, sobretot en les primers etapes del desenvolupament d’un nou fàrmac”.

 

 

 

L’Institut d’Investigació Biomèdica de Bellvitge (IDIBELL) és un centre de recerca creat el 2004 i especialitzat en càncer, neurociència, medicina translacional i medicina regenerativa. Compta amb un equip de més de 1.500 professionals que, des de 73 grups de recerca, publiquen més de 1.400 articles científics a l’any. L´IDIBELL està participat per l´Hospital Universitari de Bellvitge i l´Hospital de Viladecans de l´Institut Català de la Salut, l´Institut Català d´Oncologia, la Universitat de Barcelona i l´Ajuntament de L´Hospitalet de Llobregat.

IDIBELL és membre del Campus d´Excel·lència Internacional de la Universitat de Barcelona HUBc i forma part de la institució CERCA de la Generalitat de Catalunya. L’any 2009 es va convertir en un dels cinc primers centres de recerca espanyols acreditats com a institut de recerca sanitària per l’Institut de Salut Carlos III. A més, forma part del programa HR Excellence in Research de la Unió Europea i és membre d’EATRIS i REGIC. Des de l’any 2018, l’IDIBELL és un Centre Acreditat de la Fundació Científica AECC (FCAECC).

ENLLAÇOS RELACIONATS

Article de referència: Aled M. Edwards, et al. Protein–ligand data at scale to support machine learning. Nature Reviews in Chemistry, 2025.

Comparteix a:

Scroll to Top