Estudios en homenaje a Alfredo Matus Olivier. Volumen I

– 235 – Corpus Básico del Español de Chile ©: metodología… • María Natalia Castillo Fadić y no se encontraba disponible, se consideraba como siguiente el primer libro del mismo año. c) Si algún libro no tenía texto en la página 20, pasamos a la inmediatamente siguiente. d) Si la página 20 no correspondía a la obra en sí, sino a una introducción o a un prólogo elaborado por otro autor, avanzamos hasta la primera página de la obra en cuestión. e) Si un libro no tenía página 20, pasamos al libro inmediatamente siguiente dentro del mismo año. 2.5.1.2. Bases de datos de prensa En el caso de la prensa, existieron dificultades adicionales. Puesto que no todos los medios de prensa contaban con el mismo número de ejemplares, decidimos realizar un muestreo proporcional. Además, la muestra debió estratificarse no solo por años, sino también por secciones, para aumentar su representatividad. Para comenzar, se escogió un ejemplar de cada diario cada dos años, procurando tomar distintos meses en cada año. Esto implicó considerar nueve fechas diferentes. La primera parte de esta selección, correspondiente a los primeros veinticuatro años (1981-2004), fue por azar sistemático: para el primer año se tomó el mes de enero, para el segundo el de febrero, para el tercero el de marzo y así sucesivamente hasta diciembre, para recomenzar en enero; para los últimos dos años, empleamos un muestreo aleatorio, para evitar que enero y febrero se vieran obligatoriamente repetidos tres veces: así, mayo y octubre resultaron sorteados respectivamente para los años 2005 y 2006. Para determinar el día de cada mes, se usó nuevamente un muestreo aleatorio equiprobable sin reemplazo, donde se sortearon nueve números entre 1 y 31. Tras obtener las nueve fechas, multiplicamos el número de ejemplares publicados en esas fechas (n=59) por el número de secciones consideradas para cada uno de ellos (n=4) y nos quedamos con 236 secciones; asignamos a cada una un código numérico, comenzando por el 1 (uno) y reiniciando la numeración para cada año escogido. Así, al realizar el sorteo por año, no solo se seleccionó un diario, sino también la sección de ese diario de la que se extraería la oración. Este procedimiento fue realizado también mediante un muestreo aleatorio equiprobable. Una vez conocidos los ejemplares de cada diario y la sección sorteada, se extrajo una oración por año. En todos los casos, se trató de la primera oración ubicada en la línea n° 20 de la primera noticia de la sección, descontados el título, el subtítulo y la bajada; si ninguna oración comenzaba en dicha línea, se buscaba el inicio del segmento de oración contenido en esa línea, vale decir, el primer punto antes de la línea; si la línea sorteada correspondía a una noticia procedente de una agencia extranjera, se tomó la oración de la noticia siguiente. Puesto que no todos los diarios se publicaron durante los mismos períodos ni por la misma cantidad de tiempo, se seleccionaron como parte del universo relativo todos los diarios vigentes en las fechas sorteadas. De este modo, la muestra resultó más representativa.