Ya hace 25 años que se completó el que fue uno de los grandes hitos de la Big Science, la ciencia de gran escala que se abrió paso a mediados del siglo pasado. El Proyecto del Genoma Humano (HGP) fue un esfuerzo conjunto de investigación internacional dedicado a descifrar la secuencia del genoma humano e identificar los aproximadamente 20.000 genes que contiene. Y se logró: el resultado final fue una secuencia de referencia que cubre el 99% de las regiones del genoma humano que tienen genes. Siendo pública y accesible para todos, desde entonces cualquiera era capaz de leer nuestro código genético.
Ahora bien, de leerlo a entenderlo hay un paso. Conocer el orden en que se disponen las cuatro letras del genoma (A, C, G, T) a lo largo de toda la secuencia, no lo hace inteligible. Hacerlo pide más investigación, centrada no sólo en leer las letras que conforman el código de cada gen, sino más bien en entender la función que tienen. Los genes son las instrucciones para crear proteínas, y las proteínas son las encargadas de llevar a cabo las funciones que nos hacen ser quienes somos. Entender qué dicen las instrucciones de los genes (y, por lo tanto, qué están diseñadas a hacer las proteínas que codifican) es esencial para entender los procesos bioquímicos que se dan diariamente en nuestro cuerpo. Y esto es clave para descifrar el enigma de muchas enfermedades: si sabemos qué pasa en nuestro organismo cuando estamos sanos, podremos saber qué falla cuando estamos enfermos.
El problema es que, a pesar de tener toda esta información, la mayoría de las proteínas que se estudian son las mismas que antes del HGP. Tenemos buenas herramientas para estudiar estas proteínas y sabemos que son importantes, pero quedan «un 30% de los genes que no sabemos qué hacen porque nadie los estudia«, explica el Dr. Albert Antolín, jefe del grupo de investigación en Química médica y diseño de fármacos del IDIBELL. «La realidad es que si no disponemos de las herramientas adecuadas, el incentivo para investigar sobre proteínas poco estudiadas es bajo», añade.
Un cambio de enfoque: ¿y si se utiliza la IA para descubrir nuevas herramientas químicas?
Ahora, sin embargo, parece que se haya encontrado la manera de beneficiarse de la Inteligencia Artificial (IA) para atacar este reto. Para ponerse manos a la obra, un equipo donde participa el IDIBELL ha puesto en marcha, tras unos años de pruebas de concepto, un proyecto revolucionario para generar grandes cantidades de datos de las moléculas que interaccionan con las proteínas y, con la ayuda de la IA, desarrollar nuevas herramientas químicas para estudiarlas. Los detalles del proyecto en cuestión están explicados en el artículo que han publicado recientemente en la revista científica Nature Reviews in Chemistry.
El proyecto se enmarca en el Structural Genomics Consortium (SGC), un consorcio público-privado mundial formado por universidades y empresas farmacéuticas. El objetivo que tiene es facilitar el descubrimiento de la función de las proteínas del genoma, de manera que se pueda acelerar el descubrimiento de nuevos fármacos para enfermedades que aún no tienen cura. Volvemos a la misma filosofía: si se descubren los compuestos que interaccionan con las proteínas, se tendrá una manera fácil de estudiar su función y, al mismo tiempo, se sabrá cómo modularlas para que hagan de manera correcta la función para la que están programadas.
Entrenar a la IA con datos experimentales
El proyecto se enmarca en una iniciativa ambiciosa, Target 2035, que pretende descubrir un compuesto químico para cada proteína humana para el año 2035. Para ello, hay que entrenar los modelos de IA recogiendo un gran número de datos experimentales. Los datos de los que se dispone ahora son insuficientes: no basta para entrenar los modelos adecuadamente, que de momento solo pueden practicar con conjuntos de datos pequeños y fragmentados. Por ello, como explica el Dr. Antolín, «El objetivo durante los próximos cinco años es generar una cantidad enorme de datos para crear modelos de IA más precisos».
A mayor cantidad de datos, mayor será la precisión. Para conseguirla, se utilizarán técnicas de cribados avanzados que cruzarán experimentalmente más de 1000 proteínas del genoma humano contra miles de millones de compuestos químicos durante los próximos cinco años. A largo plazo, la idea es que estos datos permitan entrenar un modelo fundacional de IA que facilite alcanzar el ambicioso objetivo de Target 2035.
Ciencia abierta a todos
El proyecto 2035 se encuentra dentro de una iniciativa de ciencia abierta. Los datos que se extraigan podrán ser utilizados por cualquier centro de investigación o empresa farmacéutica para entrenar su IA y, así, facilitar y acelerar el descubrimiento de nuevos fármacos. «Es muy importante que la ciencia fundamental sea abierta y que todo el mundo pueda acceder a esta información», apunta el Dr. Antolín. Y añade, «La investigación en muchas enfermedades requiere ensayos clínicos que son muy costosos. La colaboración público-privada acelera este proceso, sobre todo en las primeras etapas del desarrollo de un nuevo fármaco».
El Instituto de Investigación Biomédica de Bellvitge (IDIBELL) es un centro de investigación creado el 2004 especializado en cáncer, neurociencia, medicina translacional y medicina regenerativa. Cuenta con un equipo de más de 1.500 profesionales que, desde los 73 grupos de investigación, generan más de 1.400 artículos científicos al año. El IDIBELL está participado por el Hospital Universitario de Bellvitge y el Hospital de Viladecans del Instituto Catalán de la Salud, el Instituto Catalán de Oncología, la Universidad de Barcelona y el Ayuntamiento de L’Hospitalet de Llobregat.
IDIBELL es miembro del Campus de Excelencia Internacional de la Universidad de Barcelona HUBc y forma parte de la institución CERCA de la Generalitat de Catalunya. En 2009 se convirtió en uno de los cinco primeros centros de investigación españoles acreditados como instituto de investigación sanitaria por el Instituto de Salud Carlos III. Además, forma parte del programa «HR Excellence in Research» de la Unión Europea y es miembro de EATRIS y REGIC. Desde el año 2018, IDIBELL es un Centro Acreditado de la Fundación Científica AECC (FCAECC).