Publicaciones en el campo de la epistemología de las ciencias sociales - page 17

17
Google y el nacimiento de la culturomía
revista
Science
publicó en el mes de diciembre de 2010 el artículo
“Quantitative Analysis of Culture using Millions of Digitized Books”
por un equipo de investigadores encabezados por Jean-Baptiste Michel. El
documento fue publicado por
Science Express
(
), que
es un sistema de publicación de artículos escogidos de la revista en avance a
su publicación final en la versión impresa.
Antes de referirme al contenido del artículo, describiré un poco informa-
ción contextual. De acuerdo a John Bohannon (2010), el matemático Erez
Lieberman-Aiden, mientras realizaba su doctorado sobre genoma en la Uni-
versidad de Harvard (2007), solicitó al jefe de investigación de Google el ac-
ceso a los datos del proyecto Google Books, que consiste en la digitalización
de todos los libros publicados. El argumento de Lieberman-Aiden fue que
es posible un estudio riguroso de la evolución de la cultura en gran escala
mediante el análisis del crecimiento, cambio y declinación de las palabras
publicadas a lo largo de los siglos.
El principal problema que enfrentaba la idea era que muchas de los obras
tienen copyright y, por lo tanto, se necesitaba la autorización de los autores.
La solución de Lieberman-Aiden fue que era posible ocupar dichos libros
pues, en realidad, no los leería, sino que el libro digitalizado sería transfor-
mado a una lista de palabras, las cuales podían ser estudiadas en forma esta-
dística. La unidad de análisis se llama “n-gram”, que describiré más adelante.
Lieberman-Aiden solicitó ayuda a Jean-Baptiste Michel, en ese instante
estudiante de doctorado de la Universidad de Harvard, pero del campo de
la biología evolucionaria (o evolutiva, dependiendo de la traducción). El
objetivo de ellos era explorar el lenguaje escrito con técnicas matemáticas
prestadas de aquella. Michel y Lieberman-Aiden han bautizado este campo
como “culturomics”, siendo mi traducción culturomía.
Con respecto al artículo, los autores señalan que trabajaron con 5.195.769
libros, lo que representa alrededor del 4% de todos los libros publicados
en la historia de la humanidad. El proyecto Google Books posee al 2010 la
cantidad de 15 millones de libros digitalizados, alrededor del 12% de todos
los libros publicados.
En su sentido más general, los autores señalan que la culturomía se ins-
cribe dentro del campo de los estudios cuantitativos de la cultura. La prin-
cipal diferencia con la tradición es la escala en la cual trabaja la culturomía.
La base de datos que construyeron contiene unos 550 billones de palabras:
en inglés (361 billones), francés (45 billones), español (45 billones), alemán
(37 billones), ruso (35 billones), chino (13 billones)y hebreo (2 billones).
En términos metodológicos, la unidad de análisis se llama “n-gram”. Un
“1-gram” es la unidad más básica, que consiste en una secuencia de caracte-
res no interrumpida por un espacio, por ejemplo, “manzana” o “FACSO”. Un
ejemplo de “2-gram” sería “elección presidencial” y un ejemplo de “5-gram”
podría ser “La Facultad de Ciencias Sociales”. El estudio se restringió hasta
“5-gram” que tuvieran como mínimo una ocurrencia de 40 veces en la base
de datos. Los autores señalan que la frecuencia es calculada dividiendo el
número de instancias de un “n-gram” en un año dado por el número total
Dr. Francisco Osorio, Universidad de Chile
La
1...,7,8,9,10,11,12,13,14,15,16 18,19,20,21,22,23,24,25,26,27,...32
Powered by FlippingBook