Método jackknife

El jackknife, introducido por Quenouille (1949) y ampliado por Tukey (1958), estima el sesgo y la varianza eliminando sistemáticamente una observación cada vez. Es anterior al bootstrap y es determinista: con los mismos datos siempre produce el mismo resultado. Para estadísticos suaves funciona bien; para estadísticos no suaves como la mediana puede fallar gravemente.

Algoritmo

Dada una muestra \(\mathbf{x} = (x_1, \ldots, x_n)\) y un estadístico \(\hat{\theta} = g(\mathbf{x})\):

  1. Para cada \(i = 1, \ldots, n\), calcula la estimación dejando uno fuera:

\[\hat{\theta}_{(i)} = g(x_1, \ldots, x_{i-1}, x_{i+1}, \ldots, x_n)\]

  1. Calcula la media jackknife:

\[\bar{\theta}_{(\cdot)} = \frac{1}{n} \sum_{i=1}^n \hat{\theta}_{(i)}\]

  1. Estima el sesgo:

\[\widehat{\text{Sesgo}}_\text{jack} = (n-1)\left(\bar{\theta}_{(\cdot)} - \hat{\theta}\right)\]

  1. Estima la varianza (y el error estándar):

\[\widehat{\text{Var}}_\text{jack} = \frac{n-1}{n} \sum_{i=1}^n \left(\hat{\theta}_{(i)} - \bar{\theta}_{(\cdot)}\right)^2\]

\[\widehat{\text{EE}}_\text{jack} = \sqrt{\widehat{\text{Var}}_\text{jack}}\]

El factor \((n-1)\) en la fórmula del sesgo y \((n-1)/n\) en la de la varianza son las correcciones jackknife que hacen que estos estimadores sean aproximadamente insesgados.

Ejemplo numérico completo

Estima la varianza del coeficiente de correlación muestral \(\hat{\rho}\) a partir de \(n = 8\) observaciones pareadas de estatura (cm) y peso (kg):

\(i\) Estatura Peso
1 170 65
2 182 78
3 165 60
4 175 72
5 168 63
6 178 75
7 172 68
8 180 80

Correlación original: \(\hat{\rho} = 0{,}992\).

Estimaciones jackknife de la correlación dejando una observación fuera mostrando la influencia de cada observación

Las estimaciones dejando una fuera (barras) son todas muy próximas al \(\hat{\rho}\) de la muestra completa (rojo discontinuo), lo que confirma que la correlación es estable. El EE jackknife \(\approx\) 0.0129 y el sesgo \(\approx\) 0.0057.

Cuándo falla el jackknife: estadísticos no suaves

⚠️ El jackknife es inconsistente para estadísticos no suaves

El jackknife se basa en una aproximación lineal: asume que eliminar una observación cambia \(\hat{\theta}\) en una cantidad pequeña y suave. Para estadísticos no suaves (los que pueden cambiar de forma discontinua al añadir o eliminar una observación) esta aproximación se rompe.

El ejemplo clásico es la mediana muestral con \(n\) par. Eliminar una observación puede desplazar la mediana un intervalo entre observaciones completo en lugar de una pequeña perturbación. La estimación de varianza jackknife es entonces inconsistente: no converge a la verdadera varianza aunque \(n \to \infty\).

Estadísticos para los que el jackknife falla o funciona mal:

  • Mediana muestral y otros cuantiles.
  • Máximo y mínimo muestrales.
  • Número de valores distintos en una muestra.
  • Cualquier estadístico con una discontinuidad como función de los datos.

Para estos, usa el bootstrap.

Comparación de las estimaciones del EE del jackknife y el bootstrap para la media y la mediana para distintos tamaños muestrales

Para la media (tonos azules), el jackknife y el bootstrap dan estimaciones del EE similares en todos los \(n\). Para la mediana (rojo/naranja), el EE jackknife (rojo discontinuo) es errático y poco fiable, mientras que el EE bootstrap (naranja continuo) es consistente.

El jackknife de eliminación-\(d\)

El jackknife estándar elimina una observación cada vez. El jackknife de eliminación-\(d\) elimina \(d\) observaciones cada vez, creando \(\binom{n}{d}\) submuestras. Para \(d > 1\) puede manejar estadísticos no suaves:

\[\widehat{\text{Var}}_\text{jack-d} = \frac{\binom{n}{d}^{-1}}{n-d} \sum_{S} \left(\hat{\theta}_{(S)} - \bar{\theta}_{(\cdot)}\right)^2\]

donde la suma recorre todos los subconjuntos \(S\) de tamaño \(n-d\). El \(d\) óptimo para estadísticos no suaves satisface \(d/n \to 1\) cuando \(n \to \infty\). En la práctica, el bootstrap casi siempre se prefiere al jackknife de eliminación-\(d\) para estadísticos no suaves.

Jackknife vs bootstrap

Jackknife Bootstrap
Submuestras \(n\) (determinista) \(B\) (aleatorio)
Aleatoriedad Ninguna Sí (Monte Carlo)
Estadísticos suaves Excelente Excelente
Estadísticos no suaves Falla Funciona
Coste computacional \(O(n)\) evaluaciones \(O(B \cdot n)\)
Corrección del sesgo Fórmula directa Requiere BCa u otro
Uso histórico Anterior a 1979 Posterior a 1979 (Efron)

El jackknife es el predecesor del bootstrap y sigue siendo útil para estadísticos suaves, donde su naturaleza determinista (sin aleatoriedad, sin necesidad de elegir \(B\)) es una ventaja. Para todo lo demás, el bootstrap es la herramienta estándar.

💡 Jackknife en R

# Jackknife EE manual para cualquier estadístico
jackknife_se <- function(x, stat_fn) {
  n   <- length(x)
  loo <- sapply(1:n, function(i) stat_fn(x[-i]))
  sqrt((n-1)/n * sum((loo - mean(loo))^2))
}

jackknife_se(x, mean)
jackknife_se(x, var)

# La función bootstrap::jackknife()
library(bootstrap)
jackknife(x, mean)