III Simposio de Postgrado 2025: Ingeniería, ciencia e innovación
02 65 Luciano Vidal ¹* Jorge F. Silva ¹ Uso de Medidas de Información para la Compresión de Redes Neuronales Profundas *E-mail: luciano.vidal@ug.uchile.cl ¹ Departamento de Ingeniería Eléctrica, Universidad de Chile Resumen Los modelos basados en redes neuronales son una tecnología central en las aplicaciones modernas de inteligencia artificial (IA) [1] . No obstante, su creciente tamaño, necesario para enfrentar tareas complejas, implica un aumento en los costos computacionales y energéticos. En respuesta a este desafío, se han de- sarrollado diversas técnicas de compresión de modelos, cuyo objetivo es reducir dichos costos sin afectar el desempeño [2, 3] . Sin embargo, la mayoría de estas técnicas se fundamenta en heurísticas empíricas, careciendo de un respaldo teó- rico riguroso. Este trabajo propone una estrategia de entrenamiento que comprime la es- tructura del modelo mediante un criterio fundamentado en la teoría de la in- formación. En primer lugar, se presenta una metodología para analizar el flujo de información en redes neuronales. Esta se basa en la estimación de la infor- mación mutua [4] entre la variable objetivo y las características individuales de cada representación latente. Este análisis revela escenarios en los que una parte significativa de las características aprendidas no contiene información relevante para la tarea objetivo. A partir de esta observación, se propone una estrategia de podado ( pruning ) que elimina aquellas neuronas identificadas como no in- formativas durante el entrenamiento. Esta decisión de podado se guía mediante una prueba ( test ) de independencia basada en medidas de información, con fundamentos teóricos robustos [5] . Finalmente, la estrategia propuesta es validada en datos sintéticos y conjuntos de prueba ( benchmarks ) tradicionales de clasificación de imágenes, demostran- do la capacidad de comprimir los modelos de forma significativa sin perder ren- dimiento. En conjunto, los resultados muestran la utilidad de la estrategia pro- puesta y evidencian cómo las medidas basadas en la teoría de la información pueden contribuir al desarrollo de sistemas de IA más eficientes. __Referencias [1] LeCun, Y., Bengio, Y., & Hinton, G. (2015). Deep learning. Nature , 521, 436-444. [2] Han, S., Pool, J., Tran, J., & Dally, W. (2015). Learning bothWeights and Connections for Efficient Neural Networks. Advances in neural information processing systems , 28. [3] Frankle, J., & Carbin, M. (2019). The Lottery Ticket Hypothesis: Finding Sparse, Trainable Neural Networks. In International Conference on Learning Representations , 2019. [4] Silva, J. F., & Narayanan, S. (2012). Complexity- regularized tree-structured partition for mutual information estimation. IEEE transactions on information theory , 58(3), 1940-1952. [5] Gonzalez, M. E., Silva, J. F., Videla, M., & Orchard, M. E. (2021). Data-Driven Representations for Testing Independence: Modeling, Analysis and Connection with Mutual Information Estimation. IEEE Transactions on Signal Processing , 70, 158-173.
Made with FlippingBook
RkJQdWJsaXNoZXIy Mzc3MTg=