intervalos de confianza

Concepto de Intervalo de Confianza.

En el contexto de estimar un parámetro poblacional, un intervalo de confianza es un rango de valores (calculado en una muestra) en el cual se encuentra el verdadero valor del parámetro, con una probabilidad determinada.

La probabilidad de que el verdadero valor del parámetro se encuentre en el intervalo construido se denomina nivel de confianza, y se denota 1-

. La probabilidad de equivocarnos se llama nivel de significancia y se simboliza

. Generalmente se construyen intervalos con confianza 1-

=95% (o significancia

=5%). Menos frecuentes son los intervalos con

=10% o

=1%.

Para construir un intervalo de confianza, se puede comprobar que la distribución Normal Estándar cumple 1:

P(-1.96 < z < 1.96) = 0.95

(lo anterior se puede comprobar con una tabla de probabilidades o un programa computacional que calcule probabilidades normales).

Luego, si una variable X tiene distribución N(

), entonces el 95% de las veces se cumple:

Despejando

en la ecuación se tiene:

El resultado es un intervalo que incluye al

el 95% de las veces. Es decir, es un intervalo de confianza al 95% para la media

cuando la variable X es normal y

es conocido.

Intervalos de confianza

En estadística, se llama intervalo de confianza a un par de números entre los cuales se estima que estará cierto valor desconocido con una determinada probabilidad de acierto. Formalmente, estos números determinan un intervalo, que se calcula a partir de datos de una muestra, y el valor desconocido es un parámetro poblacional. La probabilidad de éxito en la estimación se representa con 1 - α y se denomina nivel de confianza. En estas circunstancias, α es el llamado error aleatorio o nivel de significación, esto es, una medida de las posibilidades de fallar en la estimación mediante tal intervalo.^[1]
El nivel de confianza y la amplitud del intervalo varían conjuntamente, de forma que un intervalo más amplio tendrá más posibilidades de acierto (mayor nivel de confianza), mientras que para un intervalo más pequeño, que ofrece una estimación más precisa, aumentan sus posibilidades de error.
Para la construcción de un determinado intervalo de confianza es necesario conocer la distribución teórica que sigue el parámetro a estimar, θ. Es habitual que el parámetro presente una distribución normal. También pueden construirse intervalos de confianza con la desigualdad de Chebyshov.
En definitiva, un intervalo de confianza al 1 - α por ciento para la estimación de un parámetro poblacional θ que sigue una determinada distribución de probabilidad, es una expresión del tipo [θ₁, θ₂] tal que P[θ₁ ≤ θ ≤ θ₂] = 1 - α, donde P es la función de distribución de probabilidad de θ.

Intervalo de confianza para la media de una población
De una población de media $\mu$ y desviación típica $\sigma$ se pueden tomar muestras de $n$ elementos. Cada una de estas muestras tiene a su vez una media ( $\bar{x}$ ). Se puede demostrar que la media de todas las medias muestrales coincide con la media poblacional:^[2] $\mu_{\bar{x}} = \mu$
Pero además, si el tamaño de las muestras es lo suficientemente grande,^[3] la distribución de medias muestrales es, prácticamente, una distribución normal (o gaussiana) con media μ y una desviación típica dada por la siguiente expresión: $\sigma_{\bar{x}} = \frac{\sigma}{\sqrt{n}}$ . Esto se representa como sigue: $\bar{X} \sim N(\mu, \frac{\sigma}{\sqrt{n}})$ . Si estandarizamos, se sigue que: $\frac{\bar{X} - \mu}{\frac{\sigma}{\sqrt{n}}}=Z \sim N(0, 1)$
En una distribución Z ~ N(0, 1) puede calcularse fácilmente un intervalo dentro del cual caigan un determinado porcentaje de las observaciones, esto es, es sencillo hallar z₁ y z₂ tales que P[z₁ ≤ z ≤ z₂] = 1 - α, donde (1 - α)·100 es el porcentaje deseado (véase el uso de las tablas en una distribución normal).
Se desea obtener una expresión tal que $P\left[\mu_1 \le \mu \le \mu_2\right] = 1 - \alpha$
En esta distribución normal de medias se puede calcular el intervalo de confianza donde se encontrará la media poblacional si sólo se conoce una media muestral ( $\bar{x}$ ), con una confianza determinada. Habitualmente se manejan valores de confianza del 95 y del 99 por ciento. A este valor se le llamará $1 - \alpha$ (debido a que $\alpha$ es el error que se cometerá, un término opuesto).
Para ello se necesita calcular el punto $X_{\alpha/2}$ —o, mejor dicho, su versión estandarizada $Z_{\alpha/2}$ o valor crítico— junto con su "opuesto en la distribución" $X_{-\alpha/2}$ . Estos puntos delimitan la probabilidad para el intervalo, como se muestra en la siguiente imagen:

Dicho punto es el número tal que:
$\mathbb{P}[\bar{x} \ge X_{\alpha/2}] = \mathbb{P}[z \ge z_{\alpha/2}] = \alpha/2$
Y en la versión estandarizada se cumple que:
$z_{-\alpha/2} = -z_{\alpha/2}$
Así:
$\mathbb{P}\left[-z_{\alpha/2} \le \frac{\bar{x} - \mu}{\frac{\sigma}{\sqrt{n}}} \le z_{\alpha/2}\right] = 1 - \alpha$
Haciendo operaciones es posible despejar $\mu$ para obtener el intervalo:
$\mathbb{P}\left[\bar{x} - z_{\alpha/2}\frac{\sigma}{\sqrt{n}} \le \mu \le \bar{x} + z_{\alpha/2}\frac{\sigma}{\sqrt{n}}\right] = 1 - \alpha$
De lo cual se obtendrá el intervalo de confianza:
$(\bar{x} - z_{\alpha/2}\frac{\sigma}{\sqrt{n}}, \bar{x} + z_{\alpha/2}\frac{\sigma}{\sqrt{n}})$
Obsérvese que el intervalo de confianza viene dado por la media muestral $(\bar{x})$ ± el producto del valor crítico $Z_{\alpha/2}$ por el error estándar $(\frac{\sigma}{\sqrt{n}})$ .
Si no se conoce $\sigma$ y n es grande (habitualmente se toma n ≥ 30):^[4]
$(\bar{x} - z_{\alpha/2}\frac{s}{\sqrt{n}}, \bar{x} + z_{\alpha/2}\frac{s}{\sqrt{n}})$ , donde s es la desviación típica de una muestra.

Aproximaciones para el valor $z_{\alpha/2}$ para los niveles de confianza estándar son 1,96 para $1 - \alpha = 95%$ y 2,576 para $1 - \alpha = 99%$ .^[5]

INTERVALO DE CONFIANZA PARA LA DIFERENCIA DE MEDIAS DE DOS DISTRIBUCIONES NORMALES, VARIANZAS DESCONOCIDAS

En esta sección se verá el caso en donde se tienen dos poblaciones con medias y varianzas desconocidas, y se desea encontrar un intervalo de confianza para la diferencia de dos medias ₁- ₂. Si los tamaños de muestras n₁ y n₂ son mayores que 30, entonces, puede emplearse el intervalo de confianza de la distribución normal. Sin embargo, cuando se toman muestras pequeñas se supone que las poblaciones de interés están distribuidas de manera normal, y los intervalos de confianza se basan en la distribución t.

INTERVALO DE CONFIANZA PARA LA DIFERENCIA DE MEDIAS DE DOS DISTRIBUCIONES NORMALES, VARIANZAS DESCONOCIDAS PERO IGUALES

Si s₁² y s₂² son las medias y las varianzas de dos muestras aleatorias de tamaño n₁ y n₂, respectivamente, tomadas de dos poblaciones normales e independientes con varianzas desconocidas pero iguales, entonces un intervalo de confianza del 100( ) por ciento para la diferencia entre medias es:

en donde:

es el estimador combinado de la desviación estándar común de la población con n₁+n₂ – 2 grados de libertad.

Ejemplos:

Un artículo publicado dio a conocer los resultados de un análisis del peso de calcio en cemento estándar y en cemento contaminado con plomo. Los niveles bajos de calcio indican que el mecanismo de hidratación del cemento queda bloqueado y esto permite que el agua ataque varias partes de una estructura de cemento. Al tomar diez muestras de cemento estándar, se encontró que el peso promedio de calcio es de 90 con una desviación estándar de 5; los resultados obtenidos con 15 muestras de cemento contaminado con plomo fueron de 87 en promedio con una desviación estándar de 4. Supóngase que el porcentaje de peso de calcio está distribuido de manera normal. Encuéntrese un intervalo de confianza del 95% para la diferencia entre medias de los dos tipos de cementos. Por otra parte, supóngase que las dos poblaciones normales tienen la misma desviación estándar.

Solución:

El estimador combinado de la desviación estándar es:

Al calcularle raíz cuadrada a este valor nos queda que s_p = 4.41

expresión que se reduce a – 0.72 ₁- ₂6.72

Nótese que el intervalo de confianza del 95% incluye al cero; por consiguiente, para este nivel confianza, no puede concluirse la existencia de una diferencia entre las medias.

Se realizó un experimento para comparar el tiempo promedio requerido por el cuerpo humano para absorber dos medicamentos, A y B. Suponga que el tiempo necesario para que cada medicamento alcance un nivel específico en el torrente sanguíneo se distribuye normalmente. Se eligieron al azar a doce personas para ensayar cada fármaco registrándose el tiempo en minutos que tardó en alcanzar un nivel específico en la sangre. Calcule un intervalo de confianza del 95% para la diferencia del tiempo promedio. Suponga varianzas iguales.

Medicamento A	Medicamento B
n_A = 12	n_B = 12

S_A²= 15.57	S_B² = 17.54

Solución:

2.35 _B- _A9.25

Con un nivel confianza del 95% se sabe que el tiempo promedio para alcanzar un nivel específico es mayor para el medicamento B.

s = 1.1672

n = 4

Ensayo de hipótesis:

Estadístico de prueba:

La sugerencia que se hace es que el numerador sea el de valor mayor .

Entonces los grados de libertad uno será el tamaño de la muestra de la población uno menos uno. ₁= 5-1 = 4 y ₂ = 4-1=3.

Regla de decisión:

Si 0.10 F_c15.1 No se rechaza H_o,

Si la F_c < 0.10 ó si F_c > 15.1 se rechaza H_o.

Cálculo:

Decisión y Justificación:

Como 2.85 esta entre los dos valores de H_o no se rechaza , y se concluye con un = 0.05 que existe suficiente evidencia para decir que las varianza de las poblaciones son iguales.

Con la decisión anterior se procede a comparar las medias:

Ensayo de Hipótesis

H_o; _CT- _ST=0

H₁; _CT- _ST >0

Los grados de libertad son (5+4-2) = 7

Regla de decisión:

Si t_R 1.895 No se Rechaza H_o

Si t_R > 1.895 se rechaza H_o

Cálculos:

por lo tanto s_p= 1.848

Justificación y decisión:

Como 0.6332 es menor que 1.895, no se rechaza H_o, y se concluye con un nivel de significancia del 0.05 que no existe suficiente evidencia para decir que el suero detiene la leucemia.

Se realizó un experimento para comparar el tiempo promedio requerido por el cuerpo humano para absorber dos medicamentos, A y B. Suponga que el tiempo necesario para que cada medicamento alcance un nivel específico en el torrente sanguíneo se distribuye normalmente. Se eligieron al azar a doce personas para ensayar cada fármaco registrándose el tiempo en minutos que tardó en alcanzar un nivel específico en la sangre. Calcule con

= 0.05 si existe diferencia entre los tiempos promedio y obtenga el valor de P. Suponga varianzas iguales.

Medicamento A	Medicamento B
n_A = 12	n_B = 12

S_A²= 15.57	S_B² = 17.54

Solución:

Primero se pondrá a prueba el supuesto de varianzas iguales mediante una prueba de hipótesis con = 0.10.

Ensayo de hipótesis:

Estadístico de prueba:

La sugerencia que se hace es que el numerador sea el de valor mayor .

Entonces los grados de libertad uno será el tamaño de la muestra de la población uno menos uno. ₁=12-1=11 y ₂=12-1=11.

intervalos de confianza

miércoles, 14 de noviembre de 2012

No hay comentarios:

Publicar un comentario