Guía de buenas prácticas para la gestión de la calidad de datos de biodiversidad

63 Volver al índice 3. Buenas prácticas para la GCD i. OpenRefine: La herramienta Open Refine (Figura 24), disponible en su página web, limpia y cambia el formato de grandes volúmenes de datos, pudiendo homogeneizar los valores contenidos en cada campo. Permite agrupar datos, facilitando su revisión y corrección, como re- gistros con valores inconsistentes. Por ejemplo, en la columna del campo “país”, para cada dato puede estar escrito de forma diferente, para algunos Chile y para otros CHILE. Para Excel estos datos serán distintos, pero Open Refine puede leerlos y consultar si son iguales, dando la opción de cambiarlos todos a uno de estos u otra opción. La carga de datos puede provenir de diversas fuentes como TSV, CSV, SV, Excel (.xls y .xlsx), JSON, XML, RDF as XML y datos de Goo- gle Docs. Para el manejo de datos masivos recomendamos en estos casos alternativas como archivos .csv y no Excel, dado que puede presentar problemas al cargar una gran cantidad de datos. Figura 23. Revisión taxonómica utilizando “Species Matching” para datos con calidad heterogénea. Figura 24. Interfaz inicial de “OpenRefine”.

RkJQdWJsaXNoZXIy Mzc3MTg=