Skip to main content
< Tornar a notícies
L'investigador ICREA Patrick Aloy (Foto: IRB Barcelona).
 19.09.2022

Bioteque: una eina computacional per unificar el coneixement biològic

Científics liderats pel Dr. Patrick Aloy, investigador ICREA de l’Institut de Recerca Biomèdica (IRB Barcelona), amb seu al Parc Científic de Barcelona, han desenvolupat Bioteque, una eina computacional per harmonitzar, integrar i simplificar l’enorme i creixent quantitat de dades biològiques disponibles. El resultat és un panell de coneixement que proporciona informació sobre com les diferents entitats biològiques (gens, malalties o cèl·lules) es relacionen entre si, incloent-hi més de 30 milions d’interaccions funcionals. El treball es publica en Nature Communications i és de lliure accés.

La ràpida evolució de les diferents disciplines en els camps de la recerca biològica i biomèdica (com poden ser la genòmica, la proteòmica o la transcriptòmica) fa que, en les últimes dècades, la quantitat de dades biològiques disponible hagi crescut de manera exponencial. Per exemple, en l’Institut Europeu de Bioinformàtica (EMBL-EBI) han passat de gestionar/emmagatzemar un volum de 40 petabytes a treballar amb 250 petabytes, en tan sols 6 anys.

Ara, científics liderats pel Dr. Patrick Aloy, investigador ICREA i cap del laboratori de Bioinformàtica Estructural i Biologia de Xarxes de l’IRB Barcelona han desenvolupat una eina computacional per a harmonitzar, integrar i simplificar aquestes dades. La Bioteque contempla relacions entre 12 entitats biològiques (com a gens, malalties o cèl·lules), incloent-hi més de 30 milions d’interaccions funcionals, i es basa en algorismes d’intel·ligència artificial per a generar descriptors d’aquests elements que capturin diferents nivells de la seva complexitat funcional.

L’eina funciona integrant diferents nivells de complexitat biològica i així pot reportar, per exemple, sobre dos gens que estan relacionats, si interaccionen físicament, si són actius en el mateix tipus de cèl·lules, si estan relacionats amb la mateixa malaltia. O bé, podria predir la sensibilitat o resistència d’una mena de cèl·lules davant un fàrmac concret.

“Aquest recurs computacional que hem desenvolupat és dels primers dirigits a unificar informacions biològiques i és l’únic a abordar tal diversitat i quantitat de dades. Permet accedir, de manera fàcil i harmonitzada a, pràcticament, tot el coneixement biològic disponible avui dia i té un potencial enorme per a accelerar la recerca biomèdica”, explica el Dr. Patrick Aloy.

Prop de 1.000 descriptors per a 12 entitats biològiques

A la Bioteque, la informació està estructurada en 12 tipus d’entitats biològiques com poden ser: gen, malaltia, teixit, cèl·lula, etc. I, per a cadascuna d’aquestes entitats, contempla una sèrie de descriptors o característiques, per exemple: el patró de mutacions d’un gen, el perfil d’interaccions físiques de les proteïnes resultants, l’expressió d’aquest gen en diferents tipus cel·lulars o la seva relació amb malalties. Entre les 12 entitats biològiques, el sistema contempla al voltant de 1.000 tipus de descriptors.

“Hem treballat amb informació procedent de 150 bases de dades diferents, així que primer vam haver d’integrar-les, és a dir, posar-les totes en el mateix “llenguatge”. I després anar convertint aquest coneixement en descriptors numèrics que poguessin ser interpretats pels algorismes, per a així poder explotar computacionalment aquestes xarxes i connexions”, conclou Adrià Fernández, primer autor de l’article i estudiant de doctorat en el mateix laboratori.

La Bioteque s’anirà ampliant periòdicament amb noves bases de dades, segons es vagin fent públiques. Tant l’eina com les bases de dades i els algorismes són d’accés obert, i estan disponibles en el següent enllaç: https://bioteque.irbbarcelona.org/

» Enllaç a la notícia: web de l’IRB Barcelona [+]

» Article de referència: Fernández-Torras, A., Duran-Frigola, M., Bertoni, M. et al. Integrating and formatting biomedical data as pre-calculated knowledge graph embeddings in the Bioteque. Nat Commun13, 5304 (2022). DOI: https://doi.org/10.1038/s41467-022-33026-0.