Estudios en homenaje a Alfredo Matus Olivier. Volumen I
– 597 – El diccionario en la era digital • Luis Fernando Lara vocablos diferentes resultan de esos millones de ocurrencias. Sin embargo, para ilustrar la necesidad de calcular previamente y de acuerdo con sus objetivos, la estructura y repartición de fuentes de un corpus, podemos tomar en cuenta los rendimientos en términos de cantidad de vocablos diferentes en el Trésor de la Langue Française , constituido por 70,317,234 ocurrencias –¡aproximadamente la mitad de los corpus académicos!–, de las que se obtuvieron 71,415 vocablos, lo cual equivale aproximadamente al uno por ciento de rendimiento; en comparación con éste, el rendimiento aproximado del CEMC en tipos, no en vocablos, es de 1.58%, lo cual podría considerarse comparativamente mejor y, lo que es igualmente importante, menos caro en recursos humanos y económicos. Eso se debe a la selección de las fuentes y al hecho de que éstas se muestrean aleatoriamente, en vez de conservar los textos completos, como lo hizo el Trésor y lo hace la Academia Española, lo que tiende a reducir la riqueza léxica, algo ya previsto por René Moreau en 1962 18 . El tema de la elaboración adecuada de un corpus de datos lingüísticos requiere mayor atención en la lingüística contemporánea. En mi experiencia, no hace falta construir esos grandes corpus si lo que se busca es un buen rendimiento en términos de riqueza del vocabulario encontrado, ni mucho menos en términos de patrones oracionales 19 . 4. LA COMPUTADORA COMO INSTRUMENTO DE LA LEXICOGRAFÍA La utilización de la computadora también desempeña un papel central en el trabajo diario del lexicógrafo: la consulta de sus fuentes, la selección de ejemplos, la atribución de marcas de uso geográfico, social, especializado, la arquitectura de la microestructura del artículo lexicográfico en cuanto al orden de las acepciones y las locuciones, la doble macroestructura en los diccionarios que utilizan subentradas y la trabajosa redacción del artículo se facilitan al utilizar bases de datos y programas de procesamiento de texto. Aquéllas suelen ser diseño de los propios equipos lexicográficos, pues se deben ajustar a las características del diccionario (aunque ya circulan algunas estandarizadas). Todo esto da lugar a la lexicografía contemporánea, cuyos productos pueden ser, bien un diccionario impreso, en cuyo caso hay que agregar la composición de la página, el cálculo de páginas, la calidad del papel, la encuadernación, 18 En “Au sujet de l’utilisation de la notion de fréquence en linguistique”, CLex 3 (1962): 140-159. 19 Otra cosa son los corpus destinados a ofrecer concordancias de obras de diversos autores o de estados antiguos de una lengua. En ambos casos se conocen de antemano los límites del conjunto de obras; en esos corpus no se busca riqueza léxica ni representatividad, sino que tienen un objetivo exhaustivo estrictamente filológico.
Made with FlippingBook
RkJQdWJsaXNoZXIy Mzc3MTg=