Seminarios de investigación en tecnología. Carrera de Arquitectura. Semestre Primavera 2022

Seminarios de investigación en tecnología – Semestre Primavera 2022 333 3.2. Fase 2: Entrega de conocimiento La segunda fase en el diseño metodológico de esta investigación implica aplicar, según la metodología computacional, un modelo de procesamiento de lenguaje natural con redes neuronales artificiales. Para la implementación de este modelo debe utilizarse un entorno de desarrollo visual, en este caso Visual Studio Code y Google Collab, con python como lenguaje y como red neuronal artificial sequential keras para generar dos modelos, uno archivo .py y otro archivo .ipynb al que se le pueden integrar etiquetas. El modelo de procesamiento natural de lenguaje a utilizar es Word2Vec, un modelo que convierte los datos a vectores mediante la red neuronal artificial sequential keras, con el fin de aprender asociaciones de palabras desde cuerpos de texto. De esta forma, los pasos quedaron consignados de la siguiente manera: Procesamiento de datos con modelo NLP Para procesar los datos de Cogsketch se definieron dos cosas: La librería del input inicial con la carpeta de los archivos .csv previamente extraídos, y las relaciones que debía encontrar con una lista de etiquetas de relaciones definida como: labels[i]= [“rcc8 - DC”, “rcc8 - EC”, “rcc8 - PO”, “rcc8 - TPP”, “rcc8 -EQ ”, “rcc8 - NTPP”] con los valores desde 0 a 5 respectivamente. Posteriormente se creó una definición que recorriera los datos para crear una lista de espacios y una de etiquetas, las cuales deben ser llenadas entre sí. Para hacer esto, se convierte el archivo .cvs en un dataframe utilizando Pandas y se recorre para ingresar los espacios, determinando el número de espacios como M = len(list_habit) Conversión del dataframe a matrices Se ocupó numpy zeros para crear una matriz de tamaño MxM a partir de ceros. Luego se ingresó la lista de tipos de relaciones y se generó un ciclo for que hace un recorrido por el dataframe y la matriz. Con list_habit.index se incluyen las relaciones encontradas en el dataframe en la matriz, buscando el nombre de la relación y convirtiéndola a la posición del vector dentro de la matriz. Posteriormente, se imprime el número del archivo, la lista de etiquetas y la matriz con las relaciones. Figura 12: Matriz de relaciones. Esquema 023.