I Simposio de Postgrado 2023. Ingeniería, ciencias e innovación
MÓDULO_ 03 Computación y Ciencias de datos 64 EN BÚSQUEDA DE MUESTREO SEGURO CON MODELOS BASADOS EN SCORE RESUMEN Los modelos generativos son aquellos que permiten la generación de datos. Algu- nos ejemplos incluyen la generación de texto, datasets sintéticos y la creación de imágenes dada una descripción. Ultimamente estos han logrado impresionantes capacidades, llamando la atención de la comunidad tanto por sus ventajas como sus riesgos. Los modelos basados en score corresponde a un tipo de modelo donde el entrenamiento se basa en un proceso de inyección de ruido para la estimación del gradiente de la log-verosimilitud de los datos, que es a lo cual nos referimos con función de score . La generación de datos se logra generando puntos de una distribución prior y luego aplicando el proceso ruido inverso. Este procedimiento, llamadomuestreo, ha logrado impresionantes capacidade. Sus formulaciones per- miten además la estimación de la densidad de los datos e incluyen a la familia de modelos de difusión. Pese a sus utilidades, su uso y el de otros modelos generativos plantean ciertos problemas éticos, como lo es la generación de contenido dañino. Ejemplos de esto es la generación de pornografía no consentida o de contenido con violencia hacia ciertos grupos. Esta tesis, que se encuentra en proceso de construc- ción, tiene como objetivo evaluar diferentes enfoques para abordar los desafíos que implicaría un muestreo seguro, es decir, el muestreo en el cual se bloquea la generación de un cierto tipo de contenido. Analizaremos métodos como el entre- namiento adversario, la penalización de la verosimilitud de contenido perjudicial y condicionar el proceso de muestreo de dichos modelos tanto en el entrenamiento como en la inferencia, siendo esto último el foco principal del trabajo. Se espera que de este modo sea menos probable generar muestras indeseadas. El objetivo final será proponer al menos un método matemático capaz de garantizar el mues- treo sin el riesgo de contenido perjudicial tanto teórica como empíricamente. 1 Master of Data Science, Universidad de Chile 2 Departamento de Ingeniería Matemática, Universidad de Chile 3 Centro de Modelamiento Matemático, Universidad de Chile 4 Iniciativa de Datos e Inteligencia Artificial, Universidad de Chile 5 Asociación de Ética en Datos e Inteligencia Artificial *Email: ccarvajal@dim.uchile.cl CamiloCarvajal Reyes 1,2,5* , Joaquín Fontbona 2,3,4 , Felipe Tobar ,3,4
Made with FlippingBook
RkJQdWJsaXNoZXIy Mzc3MTg=