Estudios en homenaje a Alfredo Matus Olivier. Volumen I
– 595 – El diccionario en la era digital • Luis Fernando Lara no de la computadora 13 . En el caso de la Academia Española, su Corpus de referencia del español actual (CREA) comprende textos entre 1975 y 2004. La repartición geográfica de esos textos es 50% española y 50% americana; entre los textos americanos, las proporciones se distribuyen siguiendo unos “parámetros habituales” –que la Academia no explica en su portal de internet y tampoco en su Boletín , sino su autor Guillermo Rojo (2016) y omitiendo los argumentos centrales–, por los cuales se agrupa México con Centroamérica y se crea además una zona andina, una antillana, una caribeña continental, una chilena, una rioplatense y una estadounidense 14 . En total 160 millones de ocurrencias (la Academia o Rojo las llama “formas”). El Corpus del español del siglo XXI (CORPES XXI) comprende textos entre 1975 y 2015, con m ás de 140 millones de “formas”. Éste cede al continente americano 70% de sus datos y deja para España el 30% restante; la distribución de proporciones de los textos, en cuanto a América, claramente privilegia a México con Centroamérica 15 . Ambos corpus son de indudable utilidad para el análisis léxico, a pesar de sus sesgos cuantitativos, pues no se encuentra justificación para atribuir más textos en los corpus a ciertos países en relación con el tamaño de su población, si de lo que se trata es de documentar el uso de la lengua –que es un hecho social, no un conglomerado de personas–, para el cual la cantidad de hablantes no es pertinente; no por ser más los habitantes de México, su lengua y en particular su léxico debe ser más rico que el de los chilenos, por ejemplo. Me parece un error de comprensión esa manera de repartir la cantidad de textos en los corpus académicos, quizá porque se confunde el papel del muestreo: una encuesta electoral o una encuesta publicitaria pueden elegir muestras de los habitantes de una población porque es su opinión la que cuenta, no sus usos verbales, las repeticiones de casita se clasifican como tipos; el vocablo es la representación canónica de todos los tipos. 13 El día en que la computadora sea capaz de entender el significado de cualquier vocablo en contexto y el sentido total de una expresión verbal, los robots serán indistinguibles de los seres humanos, como lo plasma la famosa película Blade runner. 14 Es probable que se haya basado en la primitiva zonificación del español en América, propuesta por Pedro Henríquez Ureña en “Observaciones sobre el español deAmérica”, RFE, 8 (1921), 357-390. Aun cuando la geografía lingüística actual todavía no nos ofrece suficientes datos para identificar con mayor precisión las regiones del español en América, habría sido necesario, al menos, señalarlo. En relación con eso, y por otra parte, no me parece real la existencia de un “español estadounidense”, pues los inmigrantes hispanohablantes en ese país tienen procedencias dialectales muy diversas y no hay suficientes estudios de sus dialectos que demuestren la formación de una koiné hispánica entre ellos, que permita hablar de un “español estadounidense”. 15 La justificación se encuentra en Guillermo Rojo (2016): “el 70% restante se distribuye entre todos los demás países, tomando en cuenta rasgos como la población, el volumen de su producción editorial y su integración en alguna de las áreas lingüísticas con las que las Academias han venido trabajando tradicionalmente. Por ejemplo, al área constituida por México y los países centroamericanos le corresponde el 21% del total de cada año” (p. 204).
Made with FlippingBook
RkJQdWJsaXNoZXIy Mzc3MTg=