Estudios en homenaje a Alfredo Matus Olivier. Volumen II

– 953 – Investigaciones fraseológicas y corpus textuales • Guillermo Rojo La primera gran ventaja de los corpus textuales radica en su tamaño: los que consideramos corpus de referencia constan de cientos de millones de formas, como el Corpus de Referencia del Español Actual (CREA) o el Corpus del Español del Siglo xxi (CORPES XXI), o de miles de millones como el Corpus del Español Web / Dialectos (CdEweb) o el Es-Ten-Ten (Spanish Corpus from the Web). Dado que están en formato electrónico, es sencillo programar rutinas que procesen su contenido y proporcionen información elaborada automáticamente, como, por ejemplo, listas de frecuencias de las formas o de las combinaciones de formas (los llamados n-gramas ), que nos pueden facilitar la identificación de las unidades multipalabra en general y las unidades fraseológicas (UF) en particular. Por otro lado, los textos que componen los corpus están codificados, lo cual significa que cada uno de ellos lleva la indicación correspondiente acerca del valor que presenta en cada uno de los parámetros pertinentes: país, medio, soporte, tipo de texto, etc. Gracias a esta característica, es posible obtener la frecuencia con que se registra un cierto elemento o fenómeno en los diferentes subcorpus que se pueden construir de forma dinámica en función de los intereses de la investigación planificada. Este es un punto decisivo en general y también para lo que aquí nos ocupa, puesto que lo realmente importante no es la frecuencia de una expresión como me importa un rábano en todo el CORPES, sino la comparación entre las que presenta en cada uno de los países del ámbito hispánico. Por último, los corpus son procesados lingüísticamente, de modo que reciben la información léxica y gramatical asociada a cada uno de los elementos que hay en su interior. Gracias a este proceso, que, como es evidente, tiene que realizarse de forma automática, podemos obtener datos que corresponden no a patrones ortográficos, sino a características léxicas (como todas las formas del verbo importar ), gramaticales (todos los casos de copretérito de indicativo de todos los verbos), combinatorias (las palabras que aparecen con mayor frecuencia en torno al verbo importar ) o diferentes combinaciones de todas ellas. De todo esto deriva que la utilización de corpus electrónicos en las investigaciones fraseológicas es poco menos que forzosa 3 . No, por supuesto, para resolver problemas de índole teórica, como, por ejemplo, si importar un rábano e importar un pimiento son dos UF distintas o dos variantes de la misma UF o bien si la UF es importar un pimiento o solo un pimiento . Los datos contenidos en los corpus contribuyen decisivamente, en cambio, a mejorar nuestro conocimiento acerca del uso de estas expresiones en los ejes de variación, como trataré de mostrar en el apartado 2, y a la detección de expresiones que responden a un mismo esquema constructivo, como veremos en el apartado 3. 3 Como parte de una colaboración mucho más amplia entre la lexicografía y el procesamiento del lenguaje natural (PLN). Cf . Gantar 2019.