Estudios en homenaje a Alfredo Matus Olivier. Volumen I
– 245 – Corpus Básico del Español de Chile ©: metodología… • María Natalia Castillo Fadić Conocidas ya las ambigüedades de la catalogación que nos había servido de base, revisamos minuciosamente cada uno de los libros incluidos en base de libros técnico-científicos. En la base de libros narrativos, revisamos nuevamente todos aquellos que no estaban catalogados como Ch863 (Literatura en Español, Ficción, Chile). De esta revisión, más detallada, que incluyó la lectura de los prólogos y la revisión capítulo por capítulo, se obtuvo que 18 libros de la base Técnico-científica eran considerados explícitamente ensayos por sus autores, así como 10 de la base Narrativa. Esto obligó a excluirlos de sus bases originales. Puesto que las oraciones extraídas de estos libros habían sido seleccionadas usando las mismas técnicas de muestreo, se consideró adecuado trasladarlas a la base de Ensayo, para suplir la merma de oraciones sufrida por esta base. Así, del muestreo inicial se conservaron 33 libros con oraciones tomadas, equivalentes a 25.555 palabras. Al agregar las oraciones de los 18 libros procedentes de la base Técnico-científica, el corpus creció a 30.517 palabras. Por último, al sumar las oraciones de los 10 libros procedentes de la base de Narrativa, el corpus aumentó a 33.743 palabras. Para llegar a la meta de 100.000 palabras, faltaban entonces 66.257 palabras. Puesto que la media de palabras por oración había debido recalcularse en 30,66 para los ensayos, la estimación de oraciones faltantes era de 2161,02, cifra que subió a 2193,63 por el aumento para reducir error muestral, que fija la meta en 101000 palabras. Volviendo a aplicar el mismo procedimiento establecido inicialmente (cf. 2.5), agregamos a esta cifra un 10%, siempre con vistas a reducir el error muestral. Con esto, la estimación final de oraciones faltantes subió a 2413 oraciones. Se revisó entonces, íntegra y detalladamente, cada uno de los libros que formaban el universo relativo de Ensayo y se optó metodológicamente por restringir este universo solo a aquellos libros en los que se explicitaba su condición de ensayos dentro del propio texto, descontando los que ya habían sido sorteados en el muestreo inicial (cf. 2.6). Con esto, el universo relativo se restringió a 155 libros, sobre los cuales se realizó un muestreo complementario aleatorio simple, equiprobable y sin reemplazo de un 15%, correspondiente a 24 libros. El total de páginas fue de 4717, lo que dividido por 2413 oraciones da 1,95, de lo que se concluyó que se requería una oración cada dos páginas. Puesto que el número obtenido era tan cercano a 2, y teniendo en cuenta que había sido magnificado en dos procedimientos simultáneos, se estimó factible no redondear hacia abajo, sino hacia arriba. Esto, además, permitiría una mayor variedad en el corpus y una mayor distancia entre las oraciones. Para la determinación del número de línea, no se hicieron cambios. 3.4. Base de Técnico-Científico Aquí las técnicas empleadas para corregir el error muestral fueron exitosas: 206 de los libros sorteados (cf. 2.6) no fueron utilizados, por haberse alcanzado el
Made with FlippingBook
RkJQdWJsaXNoZXIy Mzc3MTg=