III Simposio de Postgrado 2025: Ingeniería, ciencia e innovación

02 64 *E-mail: gabriel.ortega@ciae.uchile.cl ¹ Centro de Investigación Avanzada en Educación (CIAE), Instituto de Estudios Avanzados en Educación (IE), Universidad de Chile ² Departamento de Evaluación, Medición y Registro Educacional (DEMRE), Universidad de Chile ³ Centro de Modelamiento Matemático (CMM) y Departamento de Ingeniería Matemática (DIM), Universidad de Chile Gabriel Ortega ¹* Abelino Jiménez ¹ Séverin Lions ¹ , ² Pablo Dartnell ¹ , ³ Predicción automática de dificultad en ítems y su integración como prior en modelos bayesianos de respuesta al ítem Módulo Cs. de la Computación y Cs. de Datos e IA La dificultad de una pregunta de op- ción múltiple es un parámetro esencial para asegurar la validez y equidad de las pruebas estandarizadas. Sin embar- go, su estimación tradicional mediante pre testeo requiere grandes muestras, tiempo y exposición anticipada de las preguntas, lo que incrementa costos y compromete la confidencialidad de las preguntas. En la última década, técnicas de procesamiento de lenguaje natural (PLN) han permitido predecir dicha difi- cultad directamente desde el texto, su- perando la precisión de los juicios huma- nos (Benedetto et al., 2020). Esta tesis entrena modelos neuronales sobre 4.114 preguntas de la prueba de admisión universitaria chilena (2016– 2020), etiquetadas con su parámetro de dificultad. El modelo analiza por separado el enunciado, la alternativa correcta y las alternativas incorrectas (distractores), y aprende representa- ciones que no dependen del orden en que se muestran los distractores. Usa- mos las predicciones obtenidas, y su in- certidumbre, como información previa en un modelo bayesiano. Luego simula- mos procesos de estimación de dificul- tad con tamaños de muestra entre 100 y 2.000 estudiantes para comparar con la estimación tradicional no bayesiana. Los modelos alcanzan un coeficiente de determinación R² de 0,83 en Cien- cias y 0,71 en Historia, cifras en el rango del estado del arte. También probamos versiones más livianas del modelo sin pérdida apreciable de desempeño. Se- gún Ulitzsch et al. (2025), este nivel de precisión permitiría reducir a la mitad el tamaño de muestra necesario—de 1 000 a 500 examinados—para alcanzar la misma precisión típica lograda hoy mediante estimación tradicional. Si se confirman estas proyecciones, los hallazgos mostrarán que combinar PLN con inferencia bayesiana agiliza la es- timación sin sacrificar precisión, apoya el ensamblaje automatizado de prue- bas y fortalece la confidencialidad de las preguntas. __Referencias [1] Benedetto, L., Cappelli, A., Turrin, R., & Cremonesi, P. (2020). R2DE: A NLP approach to estimating IRT parameters of newly generated questions. En Proceedings of the 10th International Conference on Learning Analytics & Knowledge (LAK ’20) pp. 412-421). Association for Computing Machinery. https://doi.org/10.1145/ 3375462.3375517 [2] Ulitzsch, E., Belov, D., Lüdtke, O., & Robitzsch, A. (2025). Using item parameter predictions for reducing calibration sample requirements —A case study based on a high-stakes admission test. Journal of Educational Measurement. Advance online publication. https://doi.org/10.1111/ jedm.12426 Resumen