Limpieza de datos – Apuntes para universitarios

Introducción

La limpieza de datos implica detectar y resolver posibles inconsistencias o errores de datos para mejorar la calidad de sus datos. Un error es cualquier valor (p. ej., peso registrado) que no refleja el valor real (p. ej., peso real) de lo que se está midiendo.

En este proceso, revisa, analiza, detecta, modifica o elimina datos «sucios» para que su conjunto de datos esté «limpio». La limpieza de datos también se denomina limpieza de datos o depuración de datos.

Desarrollo del tema

¿Por qué es importante la limpieza de datos?

En la investigación cuantitativa, recopila datos y utiliza análisis estadísticos para responder una pregunta de investigación. Al usar la prueba de hipótesis, descubre si sus datos demuestran el respaldo de sus predicciones de investigación.

Ejemplo: investigación cuantitativa

Investigan si un nuevo fármaco reduce los efectos de la fatiga. Encuesta a los participantes antes y al final del tratamiento farmacológico. Usando preguntas cerradas, hace preguntas de escala Likert sobre las experiencias y síntomas de los participantes en una escala de 1 a 7

Los errores suelen ser inevitables, pero limpiar sus datos ayuda a minimizarlos. Si no elimina o resuelve estos errores, podría terminar con una conclusión de estudio falsa o no válida.

Ejemplo: errores de datos

La mayoría de las preguntas están enmarcadas de manera positiva, pero algunas preguntas tienen marcos negativos para involucrar a los participantes.

– Pregunta: Califique del 1 al 7 en qué medida está de acuerdo o en desacuerdo con estas afirmaciones.
– Marco positivo: Me siento bien descansado cuando me despierto por la mañana.
– Marco negativo: no me siento con energía después de dormir 8 horas por la noche.

Ambas preguntas miden lo mismo: cómo se sienten los encuestados después de despertarse por la mañana. Pero las respuestas a las preguntas redactadas negativamente deben codificarse a la inversa antes del análisis para que todas las respuestas estén siempre en la misma dirección.

La codificación inversa significa voltear la escala numérica en la dirección opuesta para que un valor extremo (por ejemplo, 1 o 7) signifique lo mismo para cada pregunta.

Si olvida revertir el código de estas respuestas antes del análisis, puede terminar con una conclusión no válida debido a errores de datos.

Con datos inexactos o no válidos, puedes cometer un error de tipo I o II en la conclusión. Este tipo de conclusiones erróneas pueden ser significativas en la práctica con consecuencias importantes, ya que conducen a inversiones fuera de lugar o a oportunidades perdidas.

Ejemplo: error tipo I

Según los resultados, se comete un error de tipo I. Tu concluyes que la droga es efectiva cuando no lo es. La organización decide invertir en este nuevo fármaco y a las personas se les receta el fármaco en lugar de terapias eficaces.

Datos sucios vs. limpios

Los datos sucios incluyen inconsistencias y errores. Estos datos pueden provenir de cualquier parte del proceso de investigación, incluido un diseño de investigación deficiente, materiales de medición inapropiados o una entrada de datos defectuosa.

Los datos limpios cumplen con algunos requisitos de alta calidad, mientras que los datos sucios tienen fallas de una o más formas. Comparemos los datos sucios con los limpios.

Datos sucios	Limpiar datos
Inválido	Válido
Incorrecto	Preciso
Incompleto	Completo
Inconsistente	Coherente
Entradas duplicadas	Único
Formato incorrecto	Uniforme

Datos válidos

Los datos válidos se ajustan a ciertos requisitos para tipos específicos de información (p. ej., números enteros, texto, fechas). Los datos no válidos no coinciden con los posibles valores aceptados para esa observación.

Ejemplo: Validación de datos

Una fecha de nacimiento en un formulario solo puede reconocerse si tiene un formato determinado, por ejemplo, como dd-mm-aaaa, si utiliza técnicas de validación de datos.

El campo de día permitirá números hasta 31, el campo de mes hasta 12 y el campo de año hasta 2021. Si algún número supera esos valores, no se enviará el formulario.

Sin datos válidos, los procedimientos de análisis de datos pueden no tener sentido. Es mejor usar técnicas de validación de datos para asegurarse de que sus datos estén en los formatos correctos antes de analizarlos.

Datos precisos

En la medición, la precisión se refiere a qué tan cerca está el valor observado del valor real. Mientras que la validez de los datos se trata de la forma de una observación, la precisión de los datos se trata del contenido real.

Ejemplo: datos inexactos

Le haces a los encuestados la siguiente pregunta:

– ¿Con qué frecuencia va de compras al supermercado en persona?
– Todos los días
– Una vez por semana
– Quincenal
– Una vez al mes
– Menos de una vez al mes
– Nunca

Algunos de los encuestados seleccionan «cada dos semanas» como su respuesta. Pero esta palabra puede significar dos veces por semana o una vez cada dos semanas, y estas son frecuencias bastante diferentes.
No tiene idea de cómo interpretó cada persona esta palabra, por lo que sus datos son inexactos debido a elementos de respuesta inadecuados.

Datos completos

Los datos completos se miden y registran minuciosamente. Los datos incompletos son declaraciones o registros con información faltante.

Ejemplo: datos incompletos

En una encuesta en línea, un participante comienza a ingresar una respuesta a una pregunta abierta. Pero se distraen y hacen otra cosa antes de volver a la encuesta. Pasan a la siguiente pregunta sin completar una respuesta.

La reconstrucción de los datos que faltan no es fácil de hacer. A veces, es posible que pueda ponerse en contacto con un participante y pedirle que rehaga una encuesta o una entrevista, pero es posible que no obtenga la respuesta que hubiera obtenido de otra manera.

Datos consistentes

Los datos limpios son coherentes en un conjunto de datos. Para cada miembro de su muestra, los datos de las diferentes variables deben alinearse para que tengan sentido lógico.

Ejemplo: datos inconsistentes

En su encuesta, recopila información sobre variables demográficas, incluida la edad, el origen étnico, el nivel educativo y el estado socioeconómico. Un participante ingresa «13» para su edad y educación de nivel de doctorado como su título más alto obtenido.

Estos datos son inconsistentes porque es muy poco probable que un niño de 13 años tenga un doctorado en su muestra específica. Es más probable que se haya ingresado a una edad incorrecta.

Datos únicos

En la recopilación de datos, es posible que accidentalmente registre datos del mismo participante dos veces.

Ejemplo: Entradas duplicadas

En una encuesta en línea, un participante completa el cuestionario y presionar Intro dos veces para enviarlo. Los datos se informan dos veces por su parte.

Es importante revisar sus datos en busca de entradas idénticas y eliminar cualquier entrada duplicada en la limpieza de datos. De lo contrario, sus datos podrían estar sesgados.

Datos uniformes

Los datos uniformes se notifican utilizando las mismas unidades de medida. Si los datos no están todos en las mismas unidades, deben convertirse a una medida estándar.

Ejemplo: datos no uniformes

En una encuesta, se solicita a los participantes que ingresen su salario bruto en dólares estadounidenses. Algunos participantes responden con su salario mensual, mientras que otros informan su salario anual.

A menos que proporcione una unidad de tiempo, los participantes pueden responder esta pregunta usando diferentes marcos de tiempo. No sabrás con certeza si están reportando su salario mensual o anual.

¿Cómo se limpian los datos?

Cada conjunto de datos requiere diferentes técnicas para limpiar los datos sucios, pero debe abordar estos problemas de manera sistemática. Querrá conservar la mayor cantidad de datos posible y, al mismo tiempo, asegurarse de terminar con un conjunto de datos limpio.

La limpieza de datos es un proceso difícil porque los errores son difíciles de identificar una vez que se recopilan los datos. A menudo, no tendrá forma de saber si un punto de datos refleja el valor real de algo con precisión y precisión.
En la práctica, puede concentrarse en encontrar y resolver puntos de datos que no concuerden o no encajen con el resto de su conjunto de datos de maneras más obvias. Estos datos pueden ser valores faltantes, valores atípicos, formato incorrecto o irrelevantes.

Puede elegir algunas técnicas para limpiar datos según lo que sea apropiado. Lo que desea obtener es un conjunto de datos válido, consistente, único y uniforme que sea lo más completo posible.

Flujo de trabajo de limpieza de datos

Generalmente, comienza la limpieza de datos escaneando sus datos a un nivel amplio. Usted revisa y diagnostica los problemas sistemáticamente y luego modifica los elementos individuales según los procedimientos estandarizados.

Su flujo de trabajo podría verse así:

Aplicar técnicas de validación de datos para evitar la entrada de datos sucios
Examinar el conjunto de datos en busca de errores o inconsistencias
Diagnosticar las entradas de datos
Desarrollar códigos para mapear los datos en valores válidos
Transformar o eliminar los datos según procedimientos estandarizados

No todos estos pasos serán relevantes para todos los conjuntos de datos. Puede aplicar con cuidado técnicas de limpieza de datos cuando sea necesario, con una documentación clara de sus procesos para lograr transparencia.
Al documentar su flujo de trabajo, se asegura de que otras personas puedan revisar y replicar sus procedimientos.

Validación de datos

La validación de datos implica aplicar restricciones para asegurarse de tener datos válidos y consistentes. Por lo general, se aplica incluso antes de recopilar datos, cuando se diseñan cuestionarios u otros materiales de medición que requieren la entrada manual de datos.

Las diferentes restricciones de validación de datos lo ayudan a minimizar la cantidad de limpieza de datos que deberá realizar.

Restricciones de tipo de datos: los valores solo se pueden aceptar si son de cierto tipo, como números o texto.

Ejemplo: restricción de tipo de datos

Si se ingresa una fecha con texto y números (p. ej., 20 de marzo de 2021), en lugar de solo números (p. ej., 20-03-2021), no se aceptará.

Restricciones de rango: los valores deben estar dentro de un cierto rango para ser válidos.

Ejemplo: restricción de rango

Usted diseña un cuestionario para una población objetivo con edades que oscilan entre 18 y 45 años. Al informar la edad, los participantes solo pueden ingresar un valor entre 18 y 45 para continuar con el formulario.

Restricciones obligatorias: se debe ingresar un valor.

Ejemplo: restricción obligatoria

Los participantes que completen un formulario deben seleccionar un botón que dice «Consiento» para comenzar.

Cribado de datos

Una vez que haya recopilado sus datos, lo mejor es crear una copia de seguridad de su conjunto de datos original y almacenarla de forma segura. Si comete algún error en su flujo de trabajo, siempre puede comenzar de nuevo duplicando la copia de seguridad y trabajando desde la nueva copia de su conjunto de datos.

La selección de datos implica revisar su conjunto de datos en busca de datos incoherentes, no válidos, faltantes o atípicos. Puede hacerlo manualmente o con métodos estadísticos.

Paso 1: enderezar el conjunto de datos

Estas acciones ayudarán a mantener los datos organizados y fáciles de entender.

Convertir cada variable (medida) en una columna y cada caso (participante) en una fila.
Asigna a las columnas nombres únicos y lógicos.
Elimina las filas vacías del conjunto de datos.

Paso 2: escanear visualmente los datos para detectar posibles discrepancias

Revisa el conjunto de datos y responde estas preguntas:

¿Existen irregularidades en el formato de fechas o datos textuales o numéricos?
¿Algunas columnas tienen muchos datos faltantes?
¿Alguna fila tiene entradas duplicadas?
¿Los valores específicos en algunas columnas parecen ser valores atípicos extremos?

Toma nota de estos problemas y considera cómo los abordará en el procedimiento de limpieza de datos.

Paso 3: Usa técnicas estadísticas y tablas/gráficos para explorar datos

Al recopilar estadísticas descriptivas y visualizaciones, puedes identificar cómo se distribuyen los datos e identificar valores atípicos o sesgos.

Explora los datos visualmente con diagramas de caja, diagramas de dispersión o histogramas
Comprueba si los datos se distribuyen normalmente
Crear estadísticas de resumen (descriptivas) para cada variable
Resume los datos cuantitativos en tablas de frecuencia

Puede obtener una idea aproximada de cómo se distribuyen sus datos de variables cuantitativas visualizándolos. Los diagramas de caja y los diagramas de dispersión pueden mostrar cómo se distribuyen los datos y si se tiene valores extremos. Es importante verificar si las variables se distribuyen normalmente para que se pueda seleccionar las pruebas estadísticas adecuadas para la investigación.

Si la media, la mediana y la moda difieren mucho entre sí, es posible que haya valores atípicos en el conjunto de datos que deba examinar.

Diagnóstico de datos

Después de una descripción general, puede comenzar a entrar en el meollo de la cuestión de su conjunto de datos. Deberás crear un procedimiento estándar para detectar y tratar diferentes tipos de datos.

Sin una planificación adecuada, podría terminar eligiendo solo algunos puntos de datos para limpiar, lo que generaría un conjunto de datos sesgado.

Aquí nos centraremos en formas de lidiar con problemas comunes en los datos sucios:

Datos duplicados
Datos inválidos
Valores faltantes
Valores atípicos

De duplicación

La de duplicación significa detectar y eliminar cualquier copia idéntica de datos, dejando solo casos o participantes únicos en su conjunto de datos.

Ejemplo: de duplicación

– Compila los datos en una hoja de cálculo donde las columnas son las preguntas y las filas son los participantes.
– Cada fila contiene los datos de un participante.
– Ordena los datos por columna y revisa los datos fila por fila para verificar si hay filas idénticas. Elimina copias idénticas de una fila.

Si se dejan datos duplicados en el conjunto de datos, sesgarán sus resultados. Los datos de algunos participantes se ponderarán más que los de otros.

Datos inválidos

Con la estandarización de datos, se pueden identificar y convertir datos de diferentes formatos en un formato uniforme.

A diferencia de la validación de datos, puede aplicar técnicas de estandarización a sus datos después de haberlos recopilado. Esto implica desarrollar códigos para convertir sus datos sucios en formatos coherentes y válidos.

La estandarización de datos es útil si no tiene restricciones de datos en la entrada de datos o si sus datos tienen formatos inconsistentes.

Ejemplo: datos no válidos

Usando una pregunta abierta, pide a los participantes que informen su edad. Sus respuestas contienen una combinación de números y texto, con algunos errores tipográficos.

Estas son algunas de las respuestas:

-23
-veinte
-19
-dieciocho
-22

Métodos de coincidencia de cadenas

Para estandarizar datos inconsistentes, se puede usar métodos de coincidencia de cadenas estrictas o difusas para identificar coincidencias exactas o cercanas entre sus datos y valores válidos.

Una cadena es una secuencia de caracteres. Compara las cadenas de datos con los valores válidos que espera obtener y luego elimina o transforma las cadenas que no coinciden.

Coincidencia estricta de cadenas: cualquier cadena que no coincida exactamente con los valores válidos se considera no válida.

Ejemplo: coincidencia estricta de cadenas

Sus valores válidos incluyen números entre 18 y 45 y cualquier palabra escrita correctamente que denote números con la primera letra en mayúscula.

En este caso, solo se aceptarán 3 de 5 valores con coincidencia estricta.

– 23
– ~~veinte~~
– 19
– ~~dieciocho~~
– 22

Coincidencia aproximada de cadenas: las cadenas que coinciden estrechamente o aproximadamente con valores válidos se reconocen y corrigen.

Ejemplo: coincidencia de cadenas aproximadas

Sus valores válidos incluyen números entre 18 y 45 y cualquier palabra que denote números. Utiliza un programa de computadora para permitir cualquier valor que coincida estrechamente con estos valores válidos en su conjunto de datos.

Para cadenas que coinciden estrechamente, su programa verifica cuántas ediciones se necesitan para cambiar la cadena a un valor válido, y si la cantidad de ediciones es lo suficientemente pequeña, realiza esos cambios.

Los cinco valores se aceptarán con la coincidencia de cadenas aproximada.

– 23
– veinte
– 19
– dieciocho
– 22

Después de hacer coincidir, puede transformar sus datos de texto en números para que todos los valores tengan un formato coherente.

Por lo general, la coincidencia de cadenas aproximadas es preferible a la coincidencia de cadenas estrictas porque se retienen más datos.

Datos perdidos

En cualquier conjunto de datos, generalmente faltan algunos datos. Estas celdas aparecen en blanco en su hoja de cálculo.

Los datos faltantes pueden provenir de causas aleatorias o sistemáticas.
Los datos perdidos aleatorios incluyen errores de entrada de datos, errores de falta de atención o mala lectura de las medidas.
Los datos faltantes no aleatorios resultan de mediciones o preguntas confusas, mal diseñadas o inapropiadas.

Tratar con datos faltantes

Sus opciones para abordar los datos faltantes generalmente incluyen:

Aceptar los datos tal y como son
Eliminación del caso de los análisis
Recreando los datos que faltan

Los datos perdidos aleatorios generalmente se dejan solos, mientras que los datos perdidos no aleatorios pueden necesitar eliminación o reemplazo.

Con la eliminación, elimina a los participantes a los que les faltan datos de sus análisis. Pero su muestra puede volverse más pequeña de lo previsto, por lo que podría perder poder estadístico.

Ejemplo: eliminación de datos faltantes

Decide eliminar a todos los participantes a los que les faltan datos del conjunto de datos de su encuesta. Esto reduce su muestra de 114 participantes a 77 participantes.

Como alternativa, puede utilizar la imputación para reemplazar un valor faltante con otro valor basado en una estimación razonable. Utiliza otros datos para reemplazar el valor que falta por un conjunto de datos más completo. Es importante aplicar la imputación con cautela, porque existe un riesgo de sesgo o inexactitud.

Valores atípicos

Los valores atípicos son valores extremos que difieren de la mayoría de los otros puntos de datos en un conjunto de datos. Los valores atípicos pueden ser valores verdaderos o errores.

Los verdaderos valores atípicos siempre deben conservarse porque estos solo representan variaciones naturales en su muestra. Por ejemplo, los atletas que entrenan para una carrera olímpica de 100 metros tienen velocidades mucho más altas que la mayoría de la población. Sus velocidades de sprint son valores atípicos naturales.

Los valores atípicos también pueden resultar de errores de medición, errores de ingreso de datos o muestreo no representativo. Por ejemplo, se podría registrar un tiempo de sprint extremadamente bajo si se lee mal el cronómetro.

Detección de valores atípicos

Los valores atípicos siempre se encuentran en los extremos de cualquier conjunto de datos variable.

Puede utilizar varios métodos para detectar valores atípicos:

Ordenar los valores de menor a mayor y verificar los valores mínimos y máximos
Visualización de sus datos en un diagrama de caja y búsqueda de valores atípicos
Uso de procedimientos estadísticos para identificar valores extremos

Tratar con valores atípicos

Una vez que haya identificado los valores atípicos, decidirá qué hacer con ellos en su conjunto de datos. Sus principales opciones son retenerlos o eliminarlos.

En general, debe intentar aceptar valores atípicos tanto como sea posible, a menos que esté claro que representan errores o datos incorrectos.

Es importante documentar cada valor atípico que elimine y las razones para que otros investigadores puedan seguir sus procedimientos.

Conclusión

Es importante enfatizar que la limpieza de datos es el proceso de corregir o eliminar datos incorrectos, corruptos, con formato incorrecto, duplicados o incompletos dentro de un conjunto de datos. Cuando se combinan múltiples fuentes de datos, existen muchas oportunidades para que los datos se dupliquen o se etiqueten incorrectamente. Si los datos son incorrectos, los resultados y los algoritmos no son confiables, aunque parezcan correctos. No existe una forma absoluta de prescribir los pasos exactos en el proceso de limpieza de datos porque los procesos variarán de un conjunto de datos a otro. Pero es crucial establecer una plantilla para su proceso de limpieza de datos para que sepa que lo está haciendo de la manera correcta en todo momento.

Fuentes consultadas

Bhandari, P. (2021, noviembre 23). What is data cleansing? Scribbr. https://www.scribbr.com/methodology/data-cleansing/
Guide to data cleaning: Definition, benefits, components, and how to clean your data. (n.d.). Tableau. Retrieved September 9, 2022, from https://www.tableau.com/learn/articles/what-is-data-cleaning