I Simposio de Postgrado 2023. Ingeniería, ciencias e innovación

MÓDULO_ 07 Matemáticas aplicadas y Modelación matemática 140 LÍMITES MEAN FIELD DE REDES NEURONALES EQUIVARIANTES RESUMEN A pesar de su avasallador éxito en la práctica, las redes neuro- nales artificiales (NNs) siguen siendo un misterio desde el punto de vista teórico. En la actualidad, existen muy pocos resultados matemáticos para explicar su efectividad. En este contexto, este trabajo investiga el proceso de aprendizaje de las NNs, y cómo estas pueden explotar las simetrías de un problema para mejo- rar su rendimiento y poder de generalización. En particular, los datos de un problema podrían respetar cierta equivarianza (simetría) con respecto a la acción de un grupo (e.g. detectar un perro en una foto no depende de su orientación). Existen múltiples técnicas que permiten a las NNs aprovechar esta simetría (Data Augmentation, Feature Averaging, entre otras), en particular destacándose el diseño de NNs con arqui- tectura equivariante (CNNs, Transformers, entre otras), que son muy usadas en la práctica. Se busca entender cómo el uso de es- tas técnicas influye en el llamado límite mean field de NNs. El límite Mean Field de NNs es un formalismo que, viendo las NN con ancho infinito , permite simplificar la comprensión de su proceso de entrenamiento : la compleja optimización con SGD se reemplaza por una ecuación en derivadas parciales (EDP) más fácil de resolver. En particular, bajo ciertas hipótesis, se sabe que el proceso límite mean field del entrenamiento puede converger al óptimo global del problema de aprendizaje . Conociendo lo anterior, este trabajo busca entender cómo las técnicas que aprovechan la equivarianza de los datos se tradu- cen en propiedades del límite mean field (e.g. una convergencia más rápida al óptimo). Estos resultados pueden ser útiles para el diseño y entrenamiento de NNs más eficientes y precisas, po- tencialmente generando un impacto significativo en una amplia gama de aplicaciones prácticas muy relevantes (visión computa- cional, procesamiento de lenguaje natural, entre otras). Javier Maass Martínez 1* , Joaquín Fontbona 2 1 Departamento de Ingeniería Matemática, Universidad de Chile. 2 Centro de Modelamiento Matemático, Universidad de Chile. *Email: javier.maass@gmail.com

RkJQdWJsaXNoZXIy Mzc3MTg=