Estudios en homenaje a Alfredo Matus Olivier. Volumen I

– 596 – Estudios en homenaje a Alfredo Matus Olivier que no son privados; en ese caso, se conoce la totalidad de los votantes o los consultados y la muestra se calcula en proporción con ellos. La muestra es de habitantes, es decir, de votantes; en cambio, un corpus lingüístico es una muestra de su lengua, hecho colectivo, por eso no hay razón para establecer una proporción entre hablantes de la lengua y usos de la lengua. Igualmente, a diferencia de las muestras de opinión, en que se conoce el total de la población estudiada, tratándose de una lengua, ésta es ilimitada, por lo que no se puede calcular el tamaño de la muestra con los criterios de las encuestas electorales o comerciales. La muestra, que solo se espera sea representativa de los usos, de las tradiciones verbales de una población, se tiene que elegir buscando la mayor diversidad de textos que registren la diversidad de las tradiciones verbales. Cada región hispanohablante es, por principio, igualmente rica en tradiciones verbales, y cada región se debe considerar igualmente diversa de las demás. Así, un corpus de toda la lengua española debiera estar formado por muestras muy diversas, pero del mismo tamaño, de cada región de la lengua. Igualmente, es claro que la producción editorial tiene características multipolares 16 , que tienden a difundir los usos de los polos editorialmente predominantes, pero al discriminar la producción de países con una industria editorial menor, se deja de documentar con suficiente amplitud su lengua . Lo importante es que cada cultura nacional o regional se manifiesta en la diversidad de sus tradiciones verbales, las conozca toda la población o solo unos cuantos. Si uno coleccionara expresiones verbales de cada habitante, probablemente encontraría en la mayoría de ellos un conjunto bastante reducido de vocablos y, en consecuencia, el corpus sería una inútil colección de repeticiones. La verdad es que los corpus buscan incluir muestras de las tradiciones cultas (literarias, periodísticas, científicas, etc.) y también de las riquísimas tradiciones populares habladas, precisamente como manifestación de la riqueza de la lengua. En comparación con ellos, nuestro Corpus del español mexicano contemporáneo 1921-1974 (CEMC 1) solo contiene 1,891,045 ocurrencias , que nos ofrecieron, para la segunda edición del DEM 32, 630 vocablos 17 . Puesto que los corpus académicos no permiten conocer los datos cuantitativos completos del vocabulario registrado, no podemos medir su rendimiento, es decir, cuántos 16 Vease mi Temas del español contemporáneo , El Colegio de México/El Colegio Nacional, México, 2015. 17 El número de ocurrencias en el CEMC fue de 1,891,045, clasificadas en 64,183 tipos. Al reducir los tipos a vocablos obtuvimos cerca de 30,000 (aún no los hemos contado); el resto fueron inclusiones requeridas por la elaboración de las definiciones y otra cantidad de voces recogidas por observaciones del equipo de lexicógrafos, bien documentadas pero que no resultaron del corpus. Véase “La cuantificación en el Diccionario del español de México” en L.F.Lara, Dimensiones de la lexicografía. A propósito del Diccionario del español de México , El Colegio de México, 1990 y la Introducción a la segunda edición del DEM en https://dem. colmex.mx.