Skip to main content
< Volver a noticias
Dra. Benedetta Bolognesi, coautora principal del estudio y líder del grupo Transiciones de Fase de Proteínas en la Salud y la Enfermedad en el IBEC. Foto / IBEC
 02.05.2025

El IBEC participa en el desarrollo de CANYA, la IA catalana que descifra el lenguaje secreto de las proteínas “pegajosas”

Investigadores del Instituto de Bioingeniería de Cataluña (IBEC), ubicado en el Parque Científico de Barcelona, en colaboración con el Centro de Regulación Genómica (CRG), han diseñado la herramienta de inteligencia artificial CANYA, que ha permitido dar un paso importante en la traducción del lenguaje que utilizan las proteínas para determinar si forman agregados adhesivos, cuya presencia se relaciona con el alzhéimer y otros cincuenta tipos de enfermedades humanas. El estudio, publicado en Science Advances, ha sido posible gracias al mayor conjunto de datos sobre agregación de proteínas creado hasta la fecha. El trabajo ofrece nuevos conocimientos sobre los mecanismos moleculares que causan la agregación, un proceso vinculado a enfermedades que afectan a 500 millones de personas en todo el mundo.

La aglomeración de proteínas, o agregación amiloide, es un peligro para la salud que altera la función normal de las células. Cuando ciertas partes de las proteínas se adhieren entre sí, estas se convierten en masas densas y fibrosas que tienen consecuencias patológicas. Si bien el estudio tiene algunas implicaciones para acelerar los esfuerzos en la investigación de enfermedades neurodegenerativas, su impacto más inmediato será en la biotecnología. Muchos fármacos son proteínas y, a menudo, su función se ve obstaculizada por agregaciones no deseadas.

«La agregación de proteínas es un gran dolor de cabeza para las compañías farmacéuticas», afirma la Dra. Benedetta Bolognesi, coautora principal del estudio y líder de grupo de Transiciones de Fase de Proteínas en la Salud y la Enfermedad en el IBEC. «Si una proteína terapéutica comienza a agregarse, los lotes de fabricación pueden fallar, lo que cuesta tiempo y dinero. CANYA puede ayudar a guiar los esfuerzos para diseñar anticuerpos y enzimas que tengan menos probabilidades de adherirse y reducir los contratiempos en el proceso», añade.

Las agregaciones proteicas se forman utilizando un lenguaje todavía poco conocido. Las proteínas están formadas por veinte tipos diferentes de aminoácidos. En lugar de las habituales letras A, C, G, T que componen el lenguaje del ADN, el lenguaje de una proteína tiene veinte letras diferentes, cuyas combinaciones forman «palabras» o «motivos».

Se ha intentado durante mucho tiempo descifrar qué combinaciones de motivos causan la agregación amiloide y qué otras permiten que las proteínas se plieguen sin errores. Las herramientas de inteligencia artificial que tratan los aminoácidos como el alfabeto de un idioma misterioso podrían ayudar a identificar las palabras o motivos específicos responsables, pero la calidad y el volumen de los datos sobre la agregación de proteínas necesarios para alimentar los modelos han sido históricamente escasos o se han restringido a fragmentos de proteínas muy pequeños.

El estudio ha abordado este reto mediante la realización de experimentos a gran escala. Los autores del trabajo crearon más de 100.000 fragmentos de proteínas completamente aleatorios desde cero, cada uno de 20 aminoácidos de largo. La capacidad de cada fragmento sintético para agregarse se probó en células de levadura vivas. Así, si un fragmento en concreto desencadenara la formación de agregados, las células de levadura crecerían de una manera particular que puede ser medida para determinar la causa y el efecto.

Alrededor de uno de cada cinco fragmentos de proteína (21.936/100.000) causó aglomeración, mientras que el resto no lo hizo. Si bien estudios anteriores han podido rastrear un puñado de secuencias, el nuevo conjunto de datos ha registrado un catálogo mucho mayor de las diferentes variantes de proteínas que pueden causar la agregación amiloide.

«Hemos creado fragmentos de proteínas aleatorios, incluidas muchas versiones que no se encuentran en la naturaleza. La evolución ha explorado solo una fracción de todas las secuencias de proteína posibles, mientras que nuestro enfoque nos ayuda a asomarnos a una galaxia mucho mayor de posibilidades, proporcionando una gran cantidad de puntos de datos para ayudar a comprender las leyes más generales del comportamiento de agregación», explica el Dr. Mike Thompson, primer autor del estudio e investigador postdoctoral en el Centro de Regulación Genómica (CRG).

La gran cantidad de datos generados a partir de los experimentos se utilizó para entrenar a CANYA. El equipo decidió crearla utilizando los principios de la «IA explicable», haciendo que sus procesos de toma de decisiones fueran transparentes y comprensibles para los humanos. Esto significó sacrificar parte de su poder predictivo, que suele ser mayor en las IA de «caja negra». A pesar de ello, CANYA demostró ser alrededor de un 15% más precisa que los modelos existentes.

En concreto, CANYA es un modelo de convolución-atención, una herramienta híbrida que toma prestado de dos áreas distintas de la IA. Los modelos de convolución, como los que se utilizan en el reconocimiento de imágenes, escanean las fotos en busca de características como una oreja o una nariz para identificar una cara. De manera equivalente, CANYA ojea la cadena de proteínas para encontrar características significativas como motivos o «palabras».

Agregación amiloide dentro de las células marcada mediante técnicas de fluorescencia / Crédito: Benedetta Bolognesi (IBEC)

Por otro lado, las herramientas de traducción de idiomas utilizan los modelos de IA para identificar frases clave en una oración antes de decidir cuál es la mejor traducción. El equipo incorporó esta técnica para ayudar a CANYA a descubrir qué motivos son los más importantes a escala general de toda la proteína.

Juntos, estos dos enfoques ayudan a CANYA a ver de cerca los motivos locales y, al mismo tiempo, a detectar su importancia a gran escala. Se puede usar esta información no solo para predecir qué motivos en la cadena de proteínas fomentan la aglomeración, la bloquean o provocan un estadio intermedio, sino también para comprender por qué.

«Hay 1.024 quintillones de formas de crear un fragmento de proteína de 20 aminoácidos de largo. Hasta ahora, hemos entrenado una IA con solo 100.000 fragmentos. Queremos mejorar el proceso creando más fragmentos y más grandes. Aunque este es solo el primer paso, nuestro trabajo muestra que es posible descifrar el lenguaje de la agregación de proteínas. Esto es increíblemente importante para nuestra comprensión de las enfermedades humanas, pero también para guiar los esfuerzos de la biología sintética», concluye la Dra. Bolognesi.

«Este proyecto es un gran ejemplo de cómo la combinación de la generación de datos a gran escala con la IA puede acelerar la investigación. También se trata de un método muy rentable para generar datos», dice el profesor de investigación ICREA Ben Lehner, coautor principal del estudio y jefe de grupo en el Centro de Regulación Genómica (CRG) y el Instituto Wellcome Sanger.

» Artículo de referencia: Mike Thompson, Mariano Martín, Trinidad Sanmartín Olmo, Chandana Rajesh, Peter K. Koo, Benedetta Bolognesi, Ben Lehner. Massive experimental quantification allows interpretable deep learning of protein aggregation.Science Advances (2025). doi: 10.1126/sciadv.adt5111

» Enlace a la noticia: web del IBEC [+]