III Simposio de Postgrado 2025: Ingeniería, ciencia e innovación

11 191 Aplicaciones de Geometric Deep Learning en el entrenamiento de modelos predictivos para propiedades enzimáticas catalíticas Jorge Rojas ¹ , ²* Nicolás Martínez ³ , ⁴ Nicole Soto-García ² Julián García-Vinuesa ³ , ⁴ , Juan A. Asenjo ³ , ⁴ Mehdi D. Davari ⁵ David Medina-Ortiz ² , ⁴ , ⁵ ¹ Instituto de Ingeniería Matemática y Computacional, Pontificia Universidad Católica de Chile ² Departamento de Ingeniería en Computación, Universidad de Magallanes ³ Departamento de Ingeniería Química, Biotecnología y Materiales, Universidad de Chile ⁴ Centre for Biotechnology and Bioengineering, CeBiB, Universidad de Chile ⁵ Department of Bioorganic Chemistry, Leibniz Institute of Plant Biochemistry *E-mail: jarojaspino@gmail.cl La ingeniería de proteínas se ha consolidado como una disciplina esencial para el desarrollo de variantes con funciones optimizadas o novedosas. Propiedades como la estabilidad térmica, la tolerancia al pH o la solubilidad resultan críticas para el desempeño de las enzimas en contextos industriales, y su predicción precisa es fundamental para priorizar variantes antes de su validación expe- rimental. Aunque los métodos basados en machine learning han demostrado ser valiosos para anticipar estas propiedades, estos se basan principalmente en representaciones de secuencia, ignorando la complejidad tridimensional de las proteínas, limitando así su capacidad de capturar patrones estructurales deter- minantes de la función. En este trabajo, se construye un modelo predictivo de propiedades enzimáti- cas catalíticas basado en Geometric Deep Learning (GDL); aprendizaje profundo diseñado para operar sobre datos no euclidianos, como las estructuras mole- culares representadas como grafos. Este marco permite modelar la geometría tridimensional de las proteínas, integrando tanto la secuencia como la organi- zación espacial de sus residuos, favoreciendo una predicción más precisa y bio- lógicamente fundamentada de propiedades catalíticas. La propuesta considera la construcción de un conjunto de datos estructurados a partir de información experimental desde bases como BRENDA y la obtención de las estructuras tridi- mensionales por medio de AlphaFold o cristalografía disponible. Posteriormente, se transforman estas estructuras en grafos con propiedades fisicoquímicas, que sirven como entrada para arquitecturas GDL. A fecha de publicación la investigación está en desarrollo. Se proyecta validar el modelo entrenado y complementarlo con técnicas de explicabilidad (XAI), para identificar regiones estructurales clave asociadas al rendimiento enzimático bajo distintas condiciones. Se busca generar una comparativa del enfoque GDL con métodos basados en descriptores secuenciales en cuanto a precisión y genera- lización. Finalmente, se espera discutir las perspectivas de integrar este tipo de modelos con arquitecturas generativas, abriendo nuevas posibilidades para el diseño de novo de enzimas con propiedades catalíticas deseables. Resumen __Referencias [1] K. Atz, F. Grisoni y G. Schneider, Nat Mach Intell 3, 1023–1032 (2021) [2] J. Jumper et al., Nature 596, 583–589 (2021).