III Simposio de Postgrado 2025: Ingeniería, ciencia e innovación

02 59 Juan José Alegría ¹ , ²* Felipe Bravo ¹ , ² Cristian Buc ² Predicción de la fidelidad en explicaciones Chain-of- Thought mediante representaciones internas de LLMs *E-mail: juan.alegria@ug.uchile.cl ¹ Departamento de Ciencias de la Computación, Universidad de Chile ² Centro Nacional de Inteligencia Artificial Los modelos de lenguaje de gran escala ( Large Language Models , LLMs) han de- mostrado capacidades notables en tareas de razonamiento, especialmente me- diante el uso de explicaciones Chain-of-Thought (CoT), que consisten en secuen- cias de pasos intermedios expresados en lenguaje natural. Estas explicaciones se utilizan tanto para mejorar el rendimiento como para ofrecer interpretabilidad. Sin embargo, estudios recientes han puesto en duda su fidelidad ; es decir, si real- mente reflejan el proceso interno de razonamiento del modelo o si constituyen justificaciones generadas a posteriori [1,2,3] . Esta tesis propone investigar la relación entre la fidelidad de las explicaciones CoT y las representaciones internas de los modelos. Para ello, se ampliarán métodos existentes de evaluación, se generarán explicaciones fieles y no fieles de forma dinámica en distintos LLMs, y se analizarán las activaciones internas mediante técnicas de interpretabilidad mecanicista y neurociencia computacional, como el análisis de entropía y el enderezamiento de trayectorias. A partir de estas repre- sentaciones, se entrenarán clasificadores que permitan predecir la fidelidad de una explicación y se evaluará su capacidad de generalización entre modelos. Asimismo, se explorará la relación entre fidelidad y corrección lógica, aplicando estos clasificadores a conjuntos de datos diseñados para evaluar razonamiento, como REVEAL. El objetivo final es contribuir a una comprensión más profunda del vínculo entre las explicaciones generadas por los modelos y sus mecanismos internos, y avanzar hacia métodos más confiables para evaluar la interpretabili- dad en modelos de lenguaje. __Referencias [1] Turpin, M., Michael, J., Perez, E., & Bowman, S. (2023). Language models don't always say what they think: Unfaithful explanations in chain-of-thought prompting. Advances in Neural Information Processing Systems, 36, 74952-74965. [2] Lanham, T., Chen, A., Radhakrishnan, A., Steiner, B., Denison, C., Hernandez, D., ... & Perez, E. (2023). Measuring faithfulness in chain-of-thought reasoning. arXiv preprint arXiv:2307.13702. [3] Parcalabescu, L., & Frank, A. (2023). On measuring faithfulness or self- consistency of natural language explanations. arXiv preprint arXiv:2311.07466.