III Simposio de Postgrado 2025: Ingeniería, ciencia e innovación

02 52 ¹ Departamento de Ciencias de la Computación, Universidad de Chile Vicente Hidalgo ¹* Iván Sipirán ¹ *E-mail: vicente.hidalgo@ug.uchile.cl Selección de keyframes no supervisada para reconstrucción 3D mediante técnicas de video summarization La reconstrucción tridimensional (3D) a partir de videos depende críticamen- te de la selección de fotogramas clave (keyframes), ya que estos determinan la calidad y precisión del modelo ge- nerado. En contextos no controlados, como grabaciones domésticas con variaciones de velocidad y estabili- dad, métodos clásicos de muestreo uniforme o aleatorio tienden a selec- cionar fotogramas subóptimos. Esta investigación propone utilizar técnicas no supervisadas de resumen de video (video summarization), específicamen- te basadas en codificación dispersa (sparse coding) [2] , para seleccionar de manera inteligente los keyframes más representativos. La metodología contempla tres fases experimentales: (1) validación de la técnica de resumen sobre conjuntos de datos estándar con anotaciones humanas, observando el grado de coincidencia entre los fotogramas se- leccionados automáticamente y aque- llos considerados importantes por los usuarios; (2) aplicación de técnicas de reconstrucción 3D modernas, como Instant Neural Graphics Primitives (Ins- tantNGP) [1] , un método que utiliza re- presentaciones neuronales implícitas para generar modelos tridimensiona- les a partir de múltiples imágenes; y (3) pruebas sobre un conjunto propio de videos caseros, que presentan con- diciones reales de grabación: trayecto- rias no controladas, variaciones de ve- locidad, movimientos no estabilizados de cámara y cambios en iluminación. Estos escenarios permiten evaluar la robustez del enfoque ante imperfec- ciones comunes. Los resultados esperados apuntan a validar la hipótesis de que técnicas de video summarization no supervisa- das generan reconstrucciones 3D más precisas y robustas frente a métodos clásicos. Este enfoque permitiría obte- ner representaciones tridimensionales de mayor fidelidad a partir de videos capturados por personas no especiali- zadas, utilizando cámaras comunes en distintos contextos. __Referencias [1] T. Müller, A. Evans, C. Schied, and A. Keller, “Instant neural graphics primitives with a multiresolution hash encoding,” ACM Transactions on Graphics, vol. 41, no. 4, pp. 102:1–102:15, Jul. 2022. DOI: 10.1145/3528223.3530127 [2] A. Alfaro and I. Sipiran, “Unsupervised video summarization: A reconstruction model with proximal gradient methods” in Computer Vision – ECCVWorkshops, 2024. Módulo Cs. de la Computación y Cs. de Datos e IA Resumen