I Congreso de Postgrado fcfm: ingeniería, ciencias e innovación
144 Santiago, 10 al 12 de agosto, 2022 GENERALIZACIÓN EN REDES NEURONALES Arie Wortsman 1 *, Joaquín Fontbona 1 1 DIM, Facultad de Ciencias Físicas y Matemáticas, Universidad de Chile. RESUMEN En los últimos años, la comunidad de ciencia de datos y Machine Learning ha presenciado avances cada vez más grandes, siendo el Aprendizaje Profundo el que los ha liderado. Si bien las redes neuronales han sido ampliamente utilizadas en la práctica, en la teoría aún no existe un estudio completo sobre sus propiedades de convergencia. Es más, aún no se comprenden sus buenas propiedades de generalización, pese a ser un modelo altamente sobre parametrizado (una red con dos capas ocultas puede tener del orden de un millón de neuronas). En este contexto, una serie de trabajos han intentado estudiar las propiedades de entrenamiento y generalización estudiando las propiedades del modelo cuando la cantidad de neuronas diverge a infinito. Han aparecido dos líneas de trabajo, parametrizando la red neuronal de distintas formas. La primera, guiada por Jacot et al. [2], estudia el llamado Neural Tangent Kernel (NTK), un kernel que guía el entrenamiento de la red cuando su cantidad de neuronas tiende a infinito. La segunda, guiada por Mei et al [3], estudia el llamado régimen Mean Field . El NTK ha sido altamente cuestionado puesto que no parece funcionar igual que las redes neuronales en la práctica. Además, hay propiedades de este régimen que aún no se comprenden en su totalidad. Las principales consisten en que el NTK no depende de la inicialización de los parámetros cuando la cantidad de neuronas tiende a infinito, y en que los parámetros parecen quedarse sólo dentro de una vecindad, lo que se ha denominado Lazy Training en Chizat & Bach [1]. El trabajo presente intenta estudiar algunas de estas propiedades desde una perspectiva probabilista. Se busca estudiar la convergencia al régimen NTK en el entrenamiento con descenso de gradiente estocástico usando ecuaciones diferenciales estocásticas, y las propiedes de generlización en este contexto. AGRADECIMIENTOS Este trabajo es financiado por el Proyecto Fondecyt Regular 1201948. REFERENCIAS [1] L. Chizat, F. Bach; On Lazy Training in Differentiable Programming (2019) [2] A. Jacot, F. Gabriel, C. Hongler, Neural Tangent Kernel: Convergence and Generalization in Neural Networks (2018) [3] S. Mei, T. Masiakiewicz, A. Montanari; Mean Field Theory of Two-Layers Neural Networks (2019) MOD E L AM I E N TO MAT EMÁT I CO 13
Made with FlippingBook
RkJQdWJsaXNoZXIy Mzc3MTg=