Eliminando valores perdidos (RMNA)
En la práctica, nos encontramos con conjuntos de datos con valores faltantes para los cuales una o más fechas de observación arrojan valores no válidos o faltantes. Pueden surgir situaciones de valores faltantes debido a problemas de recopilación de datos, como un subproducto del procesamiento de conjuntos de datos o por diseño. Esto último puede ocurrir en los casos en que configuramos nuestros modelos con celdas vacías añadidas al final del conjunto de datos, en previsión de valores futuros.
Los valores faltantes se designan como “No es un número” o “NaN” para abreviar. En Excel, NaN se identifica como una celda vacía o mediante la representación especial “#N/A”. Hay algunas funciones integradas que se pueden usar para detectar #N/A, por ejemplo, NA (), ISNA (.) y IFERROR (.).
Dimensión del Conjunto de Datos
Una observación en un conjunto de datos se puede definir por un par de valores de dos variables (x, y) o por un valor múltiple de tres o más variables (por ejemplo, (x, y, z, w)). Un punto de datos en una serie temporal univariada se puede expresar como (t, x_t).
En este artículo, consideraremos el manejo de puntos de datos con valores faltantes eliminándolos. Consideraremos el proceso de eliminación para conjuntos de datos unidimensionales y bidimensionales (variables múltiples).
Para un conjunto de datos bidimensional, cada fila representa un punto de datos y cada columna representa una variable de entrada. Si una o más celdas en una fila tienen un valor vacío o #N/A, el punto de datos (es decir, la fila) se considera un punto de datos con un valor faltante y, por lo tanto, se excluye.
¡Pero espera un momento! ¿Qué pasa con las series de tiempo? La eliminación de puntos de datos iniciales o finales con valores faltantes plantea un pequeño problema. Simplemente podemos adelantar la hora de inicio y la hora de finalización, pero no podemos descartar puntos de datos intermedios, ya que afecta el espacio de tiempo entre las observaciones.
¿Por qué debería importarme?
Manejar un conjunto de datos con valores faltantes en Excel presenta un desafío. Si bien Excel tiene algunas funciones integradas (p. ej., MIN(), MAX(.) COUNT(.)) que aceptan estos conjuntos de datos e ignoran silenciosamente las observaciones con valores faltantes, la mayoría de las funciones (p. ej., STDEV(.), CORREL (.)) no los admiten y devolverán errores (es decir, #VALOR) si estos conjuntos de datos se pasan como entradas.
Función RMNA(.)
En muchos asistentes NumXL, hay una pestaña separada para manejar puntos de datos con valores faltantes. En esta pestaña, al usuario se le presentan diferentes políticas: no aceptar, eliminar obs.,sustituir, interpolar, ajuste de datos, etc. Si el usuario selecciona “eliminar obs.” política de gestión de valores perdidos, los conjuntos de datos de entrada son preprocesados primero por RMNA(.) en las fórmulas generadas.
¿Qué es RMNA(.)? RMNA es una función de utilidad simple pero poderosa en NumXL, con la única tarea de detectar y eliminar observaciones con uno o más valores faltantes.
La función RMNA acepta dos argumentos: X y (opcionalmente) Y. X y Y constan de una o más columnas, pero si se proporciona Y, entonces el número de filas en X debe ser igual a Y.
En la notación RMNA(.), el punto de datos es (X, Y), pero RMNA(X, Y) devuelve la X procesada. Si deseamos devolver la Y procesada, invertimos el orden del par X e Y. (es decir, (Y, X)).
Ejemplo 1: Consideremos el siguiente escenario: un conjunto de datos de una columna tiene dos puntos de datos con valores faltantes. Los valores faltantes se representan como #N/A y una celda en blanco/vacía.
Usando las funciones integradas de Excel: PROMEDIO (.), STDEV (.), SKEW (.) y KURT (.) devuelven el error #N/A, pero COUNT (.) elimina silenciosamente puntos de datos con valores faltantes y devuelve un recuento de los puntos de datos restantes (es decir, 18).
Ahora, procesemos previamente el conjunto de datos con RMNA(.), almacenémoslo en una columna separada y pasemos la nueva columna a las mismas funciones:
Ejemplo 2: Consideremos un conjunto de datos de dos variables (X, Y) para el cual deseamos calcular la correlación cruzada (XCF o el CORREL integrado de Excel).
El conjunto de datos tiene 3 puntos de datos con valores faltantes, por lo que debemos excluir esas observaciones antes de poder calcular el valor de correlación.
Podemos usar el RMNA(.) de dos maneras diferentes:
Método 1: Pase todo el conjunto de datos (columnas B y C) como un solo argumento.
La función RMNA(.) devuelve el conjunto de datos original después de descartar cualquier fila que tenga uno o más valores faltantes.
Método 2: preprocesar cada columna por separado pero usar la otra columna como referencia opcional.
Al utilizar la otra columna como argumento de referencia opcional (es decir, Y), el RMNA(.) también examina sus puntos de datos en busca de valores faltantes, pero la función devuelve solo el conjunto de datos especificado en el primer argumento (es decir, X).
Tenga en cuenta que al invertir X e Y en RMNA (.), podemos obtener el conjunto de datos X2 después de descartar los valores faltantes que se encuentran en X2 o en la matriz X1.
Una ventaja notable de usar el Método 2 sobre el Método 1 es que la función no requiere que las columnas X1 y X2 sean adyacentes.
Ejemplo 3: configuremos un modelo de hoja de cálculo para actualizaciones automáticas, a medida que haya nuevos datos disponibles.
Tenga en cuenta que al agregar un valor en B21, el RMNA (.) incluirá este nuevo valor, lo que obligará a AVG y a la otra función a actualizar sus cálculos.
Resumen
En resumen, la función RMNA(.) ofrece un mecanismo simple pero poderoso para preparar sus datos de entrada al eliminar cualquier punto de datos al que le falte un valor. La función acepta un segundo argumento (opción) que se usa para determinar si un punto de datos tiene un valor faltante pero se excluye del conjunto de resultados de retorno.
Para conocer más detalles técnicos sobre la función RMNA de NumXL, consulte este página del manual de referencia. Puede descargar una prueba de 14 días completamente funcional de NumXL y probar la función RMNA usted mismo.