I Congreso de Postgrado fcfm: ingeniería, ciencias e innovación
41 Santiago, 10 al 12 de agosto, 2022 REDUCCIÓN DE TIEMPOS DE INFERENCIA EN MODELOS DE EFECTOS DE AUDIO MEDIANTE TÉCNICAS DE KNOWLEDGE DISTILLATION Diego Canales R.¹*, Felipe Tobar H.² ¹Master of Data Science, FCFM, Universidad de Chile, Santiago, Chile. ²Iniciativa de Datos e Inteligencia Artificial, FCFM, Universidad de Chile, Santiago, Chile. *Email: diegocanales@ug.uchile.cl RESUMEN En la música popular, los dispositivos que amplifican y/o alteran las señales de audio obtenidas desde los instrumentos son fundamentales y entendidos como parte de la creación musical. Por ejemplo, en el caso de la guitarra eléctrica, existe una gran variedad de efectos de audio y amplificadores que “colorean” y “transforman” el sonido para dar un carácter único al artista. Estos dispositivos, implementados en la forma de circuitos electrónicos, suelen ser costosos, delicados y difíciles de transportar. Esta investigación se enmarca en el modelamiento de estos dispositivos sobre señales de audio, lo cual se ilustra en la Figura 1. Efectos no lineales de distorsión como el overdrive y el fuzz son difíciles de modelar mediante ecuaciones explícitas, pero en los últimos años se han desarrollado modelos basados en Deep Learning que han mostrado resultados prometedores [1] [2], pero a un alto costo computacional. El objetivo de nuestra investigación es reducir los tiempos de inferencia de los métodos anteriores, entendiendo que una baja latencia de respuesta es fundamental para su utilidad. Se emplean técnicas de Knowledge Distillation (KD), que apuntan a obtener modelos más simples y rápidos a partir de modelos complejos ya entrenados. Se considera tanto el escenario en que se dispone de los datos de entrenamiento [3] como en el que no [4]. Nuestros resultados preliminares muestran que sí es posible obtener modelos que introduzcan una menor latencia en inferencia; si bien los modelos destilados presentan un desempeño inferior al modelo completo, son mejores que entrenar la arquitectura simple sin las técnicas de KD. REFERENCIAS [1] M. Martínez y J. Reiss, “Modeling Nonlinear Audio Effects With End-to-end Deep Neural Networks”, International Conference on Acoustics, Speech and Signal Processing (2019) [2] A. Wright, E. Damskägg, L. Juvela, y V. Välimäki, Applied Sciences 10 (3), 766 (2020). [3] M. Takamoto, Y. Morishita, y H. Imaoka, “An Efficient Method of Training Small Models for Regression Problems with Knowledge Distillation,” Multimedia Information Processing and Retrieval (2020) [4] M. Kang y S. Kang, Expert Systems With Applications 175 , 114813 (2021) Figure 1: Ilustración del modelamiento de amplificadores y efectos de audio. C I E NC I A D E DATOS 02
Made with FlippingBook
RkJQdWJsaXNoZXIy Mzc3MTg=