Estudios en homenaje a Alfredo Matus Olivier. Volumen I
– 594 – Estudios en homenaje a Alfredo Matus Olivier pendiente de la lingüística hispánica. Al respecto, nuestro Analizador gramatical del DEM fue pionero de esa clase de sistemas de programación 9 . La tradición lexicográfica ha consistido desde los primeros diccionarios en la copia o “refundición” de diccionarios anteriores, a los que se agrega cierta cantidad de vocablos recién documentados. Lo podemos comprobar si comparamos, por ejemplo, el Tesoro de la lengua castellana de Sebastián de Cobarruvias (1611) con el Diccionario de autoridades de la Academia Española (1713-29), o el Diccionario de la Academia Española con el de María Moliner y todos los diccionarios comerciales que se venden hasta la fecha 10 . Por el contrario, puesto que el objetivo central de toda la lingüística moderna ha sido la descripción de las lenguas, los diccionarios que elaboramos en centros de investigación requieren basarse en datos originales, provenientes de una investigación lo más amplia posible del vocabulario, lo cual plantea el problema de contar con suficientes fuentes de datos, algo que, antes de la invención de la computadora, era lo que dificultaba grandemente la preparación de un diccionario. 3. LOS CORPUS DE DATOS Para resolverlo, hay que construir un corpus de datos suficientemente grande y bien estructurado que produzca una colección amplia y digna de confianza del vocabulario en cuestión. De ahí se derivan dos dificultades: la primera es la definición de los textos que deben constituir el corpus; la segunda, como dije antes, los programas de lectura y reconocimiento de los vocablos, de delimitación del tamaño de sus contextos para producir concordancias y de medida de la representatividad de ese corpus 11 . Desde un principio se ha tendido a construir corpus lo más exhaustivos posible, de decenas o hasta cientos de millones de ocurrencias de vocablos 12 , que terminan por volverse inmanejables, pues el análisis de cada vocablo y sus significados es tarea de seres humanos, 9 Una explicación pormenorizada del Analizado r es el tema del artículo de I. García Hidalgo “La formalización del Analizador gramatical del DEM” en Lara, L.F., R. Ham Chande e I. García Hidalgo, Investigaciones lingüísticas en lexicografía , El Colegio de México, 1980 (Se puede leer en formato PDF en https://dem.colmex.mx) . 10 En comparación con estos dos últimos, el Diccionario del español actual de Manuel Seco es una valiosa aportación. 11 Remito a mi artículo “Base estadística del DEM” y al de R. Ham, “Del 1 al 100 en lexicografía” en la obra antes mencionada. 12 En la terminología estadística que seguimos en el DEM, a partir de los primeros estudios de estadística lingüística, en particular los del francés Charles Muller, entendemos por ocurrencias cada una de las formas flexionadas, conjugadas, derivadas, de un vocablo. Así por ejemplo el vocablo casa tiene las siguientes ocurrencias: casas, casita, casitas, casotas , etc. Del mismo Muller viene la distinción entre tipo y vocablo. Un tipo es la agrupación de todas las repeticiones de una de las formas del vocablo; siguiendo con el ejemplo anterior, todas
Made with FlippingBook
RkJQdWJsaXNoZXIy Mzc3MTg=