Estudios en homenaje al Dr. Gilberto Sánchez Cabezas
323 A nálisis sociolingüístico del marcador …/ Scott Sadowsky Por estas razones, para los fines de la investigación sociolingüística, la en- trevista conversacional produce, a nuestro juicio, muestras de habla superiores a las que genera la entrevista semiestructurada. 3.3. P rocesamiento de datos Los textos analizados fueron lematizados y anotados con información mor- fológica mediante la versión chilena (Sadowsky 2016) de FreeLing (Padró y Stanilovsky 2012). Luego, los textos fueron compilados con ims Open Corpus Workbench (Evert y Hardie 2011), para así generar un corpus propiamente tal 130 , que permite la extracción automatizada de información lingüística 131 . Fi- nalmente, las instancias del marcador discursivo “cachái”, junto con los me- tadatos de los hablantes, fueron extraídos del corpus con CQPweb (Hardie 2012). 4. RESULTADOS En los siguientes apartados se presentan los resultados del análisis de la preva- lencia de “cachái” según las variables sociales nivel socioeconómico , región , etnia y sexo . Las tablas proporcionan dos tipos de datos: la frecuencia absoluta (“ n ”) y la frecuencia por millón de palabras de texto corrido analizado (“ pmp ”). El pmp es un valor normalizado que permite la comparación válida de subcor- pora de distintos tamaños, lo cual no puede hacerse con n . Las figuras, por su parte, ilustran la prevalencia en términos del pmp . Para facilitar la comparación de los distintos resultados, todas las figuras utilizan la misma escala (desde 0 hasta 1.000 pmp ). 130 Esto se opone a una mera colección de transcripciones en formato Word o similar, lo cual no constituye un corpus en el sentido moderno del término, ya que limita a los investigadores al empleo de las mismas técnicas de búsqueda y conteo manuales que se han utilizado durante siglos con los textos impresos. 131 El coscach está a libre disposición de la comunidad científica en https://corpora.pro .
Made with FlippingBook
RkJQdWJsaXNoZXIy Mzc3MTg=