Estudios en homenaje a Alfredo Matus Olivier. Volumen I
– 234 – Estudios en homenaje a Alfredo Matus Olivier 2.5. Primer muestreo 2.5.1. Determinación de la media de palabras por oración Puesto que este corpus fue construido en el marco de nuestra investigación sobre el léxico básico del español de Chile, requería contar con 500.000 palabras distribuidas en cinco mundos 6 , número que sigue la tradición iniciada por Juilland y Chang-Rodríguez (1964) y respaldada por Juilland, Traversa, Beltramo y Di Blasi (1973) y Morales (1986), entre otros. Así, Ávila (1999: 45) señala que […] este número de elementos léxicos es el más usual en los recuentos de frecuencia léxica elaborados del español. Para sus autores, esta extensión del corpus es la adecuada en razón a las afirmaciones de Taylor Patterson (1967), quien considera que el léxico básico del español puede elaborarse perfectamente a partir de un corpus científicamente seleccionado de 500.000 palabras. A partir de ellas, y según este autor, se pueden obtener las 5.000 palabras básicas de la lengua [….]. Cada mundo, entonces, debía estar representado por 100.000 palabras en contexto, es decir, no aisladas sino dentro de una oración. Para saber cuántas oraciones por mundo necesitábamos para cubrir esa cantidad, buscamos la media aritmética ( x ˉ ) de palabras por oración en cada mundo. Para ello, extrajimos una muestra representativa de oraciones estratificada por mundo y contamos el número de palabras de cada una para luego obtener la media por mundo. 2.5.1.1. Bases de datos de libros Apartir del universo relativo consignado en nuestras bases, tomamos una muestra por azar sistemático (cf. López Morales 1994: 44), por cuota fija, estratificada (López Morales 1994: 51) por mundo y por año. En cada base de datos de libros, extrajimos treinta y seis oraciones: una cada dos años. Tomamos siempre la primera oración de la página 20 ‒número establecido por sorteo aleatorio simple (cf. López Morales 1994: 42)‒, entendiendo oración no desde una perspectiva gramatical, sino meramente gráfica: lo que está entre un punto y otro. Para estos efectos, consideramos como indicadores de término de oración tanto el punto seguido como el punto aparte. Para escoger los libros de los que tomamos las oraciones para cada año por mundo, realizamos un muestreo aleatorio. Para evitar soluciones distintas a problemas similares, aplicamos los siguientes criterios: a) Si alguno de los libros sorteados no se encontraba disponible, pasamos al inmediatamente siguiente dentro del mismo año. b) Si el libro sorteado era el último de la lista 6 Para justificación detallada del tamaño de la muestra, cf. Castillo Fadić 2015 y Castillo Fadić 2020a.
Made with FlippingBook
RkJQdWJsaXNoZXIy Mzc3MTg=