I Simposio de Postgrado 2023. Ingeniería, ciencias e innovación
I SIMPOSIO 2023 PREDICCIÓN DE LA RESISTENCIA A ÁCIDO DE PROTEÍNAS DE ORGANISMOS EXTREMÓFILOS MEDIANTE DEEP LEARNING RESUMEN Las proteínas son biomoléculas responsables de la gran may- oría de las funciones biológicas. Estas están constituidas por moléculas más pequeñas llamadas aminoácidos enlazados en cadena. Existen 20 tipos de aminoácidos, por lo que una proteí- na se puede representar como una secuencia de 20 caracteres distintos de largo variable. En la secuencia de aminoácidos de una proteína está codificada (de forma compleja) su estructura tridimensional y función biológica. Actualmente existen algoritmos para extraer características estructurales y funcionales de proteínas, pero una comprensión profunda de la información codificada en su secuencia amino- acídica no ha sido del todo lograda. Uno de estos aspectos no resueltos es la capacidad de algunas proteínas de resistir acidez extrema. En particular, existen microorganismos unicelulares resistentes a pH extremadamente bajos denominados acidófi- los que poseen proteínas que son funcionales estando expuestas a este nivel de acidez. En este trabajo, se utilizó Deep Learning para descifrar la rel- ación entre la secuencia aminoacídica y la resistencia a acidez de una proteína entrenando un modelo de regresión. Se utilizó un dataset de 152.000 proteínas de organismos que viven ópti- mamente entre pH 1 (ácido) y 7 (neutro). Se entrenó un modelo de lenguaje DL del tipo LSTM (Long short-term memory) con atención que predice el pH de las proteínas en base a su secuen- cia con un error absoluto medio de 0.91 unidades de pH (15% del rango de pH ácido), R 2 =0.34. Estos resultados constituyen un primer paso en la identificación de proteínas y organismos acidófilos, permitiendo comprender características fenotípicas sin necesidad de experimentación microbiológica y facilitando el estudio de ambientes extremos. 1 Master of Data Science, FCFM, Universidad de Chile. 2 Iniciativa de Datos e Inteligencia Artificial, FCFM, Universidad de Chile. *Email: diegonahuel8@gmail.com Diego Cortez 1* , Felipe Tobar 2
Made with FlippingBook
RkJQdWJsaXNoZXIy Mzc3MTg=