jueves, 11 de diciembre de 2008

FUNCIONES DE PROBABILIDAD - Buscar con Google

FUNCIONES DE PROBABILIDAD - Buscar con Google

CORRELACION Y REGRESION. UNIDAD 5 (TODO SACADO DEL LIBRO DE LA BIBLIOTECA)

Regresión y Correlación.


La regresión y la correlación son dos técnicas estrechamente relacionadas y comprenden una forma deestimación.

En forma más especifica el análisis de correlación y regresión comprende el análisis de los datos muestrales para saber que es y como se relacionan entre si dos o mas variables en una población. El análisis de correlación produce un número que resume el grado de la correlación entre dos variables; y el análisis de regresión da lugar a una ecuación matemática que describe dicha relación.

El análisis de correlación generalmente resulta útil para un trabajo de exploración cuando un investigador o analista trata de determinar que variables son potenciales importantes, el interés radica básicamente en la fuerza de la relación.
La correlación mide la fuerza de una entre variables; la regresión da lugar a una
ecuación que describe dicha relación en términos matemáticos.

Los datos necesarios para análisis de regresión y correlación provienen de observaciones de variablesrelacionadas.

Regresión lineal

La regresión lineal simple comprende el intento de desarrollar una línea recta o ecuación matemática lineal que describe la reacción entre dos variables.
La regresión puede utilizadas de diversas formas. Se emplean en situaciones en la que las dos variables miden aproximadamente lo mismo, pero en las que una variable es relativamente costosa, o, por el contrario, es poco interesante trabajar con ella, mientras que con la otra variable no ocurre lo mismo.

La finalidad de una ecuación de regresión seria estimar los valores de una variable con base en los valores conocidos de la otra.

Otra forma de emplear una ecuación de regresión es para explicar los valores de una variable en término de otra. Es decir se puede intuir una relación de causa y efecto entre dos variables. El análisis de regresión únicamente indica qué relación matemática podría haber, de existir una. Ni con regresión ni con la correlación
se pude establecer si una variable tiene causa ciertos valores de otra variable.


Ecuación Lineal
Dos características importantes de una ecuación lineal:

· la independencia de la recta
· la localización de la recta en algún punto. Una ecuación lineal tiene la forma
y = a + bx

En la que a y b son valores que se determina a partir de los datos de la muestra; a indica la altura de la recta en x= 0, y b señala su pendiente.
La variable y es la que se habrá de predecir, y x es la variable predictora.


Determinación de la ecuación matemática

En la regresión, los valores de y son predichos a partir de valores de x dados o conocidos. La variable y recibe le nombre variable dependiente y la variable x, el de variable independiente.

Métodos de mínimos cuadrados.

EL procedimiento mas utilizado por adaptar una recta aun conjunto de punto se le que conoce como método
de mínimos cuadrados. La recta resultante presenta 2 característica importantes
· es nula la suma desviaciones verticales en los puntos a partir de la recta
· es mínima la suma de los cuadrados de dicha desviaciones

(yi − yc)2

En el cual

Yi = valor esperado de y

Yc= valor calculado de y utilizando la ecuación de mínimos cuadrados con el valor correspondientes x para yi

Los valores de a y b para la recta es Yc = a + bx que minimiza la suma de los cuadrados de la desviación.

ecuaciones normales

y = na + (x)
xy= a (x) +b (x2)

En las que n es el numero de pares de observaciones. Evaluando las cantidades x, y, etc. Se puede resolver estas dos ecuaciones simultáneamente para determinar a b. la ecuaciones puede despejarse. Se obtuvieron dos formulas aun para a y otra para b.

n(xy)− (x)(y)
b=
n(x2)−(x)2
y − b x
a=n

Inferencia en el análisis de regresión

Los supuestos para el análisis de regresión son como:

· Existen datos de medición para a x y z.
· la variable dependiente es una variable aleatoria.
· para cada valor de x, existe una distribución condicional de la qué es de
naturaleza normal
· la desviación estándar de toda las distribuciones condicionales son iguales.

EL error estándar de estimación

La determinante primaria de la exactitud es el grado de dispersión de la población: cuanto mas dispersa este, menor será la exactitud de la estimación. El grado de dispersión en la población se puede estimar a partir del grado de dispersión en las observaciones de la muestra con respecto a la línea de regresión calculada, utilizando la formula.

Se = " (yi −yc)
n−2
en la cual:

yi = cada valor de y
yc = valor de línea de regresión correspondiente a partir de la ecuación de regresión.
n = números de observaciones.
La formula anterior no se utiliza por lo general para cálculos reales, es mas fácil trabajar con la formula simplificada
Se "y2 − a y − b xy
n − 2

Inferencia de acerca de la pendiente de una línea de regresión.

Aun cuando es muy poca o nula relación entre dos variables de aun población, es posible obtener valores maestrales que hacen que parezca que la variables están relacionadas, es importantes probar los resultados tales de caculo, a fin determinar si son significativos (es decir si los parámetros verdaderos no son cero), Si no
existe ninguna relación se esperaría obtener aun pendiente cero, se pone a prueba la hipótesis nula contra la hipótesis alternativa.

La significación del coeficiente de regresión se puede probar comparándolo con su desviación estándar:

t = valor de la muestra − valor esperado

Desviación estándar

Análisis de regresión lineal múltiple

La regresión múltiple comprende tres o más variables. Existe solo una variable dependiente, pero hay dos o mas tipo independiente. Esta operación al desarrollo de una ecuación que se pede utilizar para predecir valores de y, respecto a valores dados de la diferencia variables independientes adicionales es incrementar la
capacidad predicativa sobre la de la regresión lineal simple.

Las técnicas de los mínimos cuadrados se utilizan para obtener ecuaciones de regresión.

Yc= a +b1x1+b2x2+bkxk
a = ordenada en el origen

b1= pendiente
k = numero de variables independientes

Un análisis de regresión simple de dos variable da lugar a la ecuación de una recta, un problema de tres variables produce un plano, y un problema de k variables implica un hiperplano de a (k +1) dimensiones.

Análisis de Correlación

EL objetivo de un estudio de correlación es determinar la consistencia de una relación entre observaciones por partes. EL termino correlación significa relación mutua, ye que indica el grado en el que los valores de una variable se relacionan con los valores de otra. Se considera tres técnicas de correlación uno para datos de
medición, otro para datos jerarquizados y el último para clasificaciones nominales.
Datos Continuos: r de Pearson

EL grado de relación entre dos variables continuas se resume mediante un coeficiente de correlación que se conoce como r de Pearson en honor del gran matemático Kart Pearson, quien ideo este método. Esta técnica es valida mientras si es posible establecer ciertos supuestos bastante estrictos. Tales supuestos son los siguientes:

Tanto x como y son variables continuas aleatorias. Es decir, a diferencia del análisis de referencia de regresión, no es aceptable seleccionar ciertos valores de x, y después medir y; tanto y como x deben de variar libremente.
·
La distribución conjunta de frecuencia es normal. Esto recibe el nombre de de distribución normal divariada.

Carácter de r

El coeficiente de relación presenta dos propiedades que establecen la naturaleza de una relación entre dos variables. Una es su signo (+ o −) y la otra, es su magnitud. El signo es igual al de la pendiente de una recta que podría ajustarse a los datos si estos se graficaran en un diagrama de dispersión, y la magnitud de r indica
cuan cerca esta de la recta tales puntos.

Método practicar para calcular r

Dado que los cálculos necesarios pueden requerir mucho tiempo especialmente cuando se resta las medias del grupo de cada observación se elevan a cuadrado esas diferencias. Existe una versión, la cual simplifica los cálculos:
r= (n ("xy)−("x)("y))/("n("x2)−("x)2 ·"n("y2)("y)2)

Existen 3 formas posibles para obtener el valor de r en el caso de datos de medición: estandarizar cada conjunto y hallar el producto medio, calcular el coeficiente de determinación r2 y obtener su raíz cuadrada como utilizar la formula.

Para un conjunto de datos los tres métodos producirán el mismo valor para r no
obstante cada método agrega algo a la comprensión del significado del termino correlación

Inferencia acerca del coeficiente de correlación


Intervalo de confianza para la correlación de la población

El valor del coeficiente de correlación de la muestra se puede utilizar como un estimado de la correlación
verdadera de población existen varios métodos para obtener un método de confianza para pero quizás la forma mas directa es usar un diagrama.

Si se examinan el diagrama se observara que el intervalo de los valores potenciales (no conocidos) se indican a lo largo de la escala vertical los posibles valores r de la muestra se indica en la escala inferior una serie de curvas representan tamaño de muestras seleccionadas.

Prueba de significación de r

Puede ser necesario evaluar una aseveración con respecto al valor de r. La forma mas sencilla es obtener un intervalo de confianza para r y observar si el valor propuesto esta incluido en el intervalo de ser así se rechaza a Ho y se acepta la alternativa.

Datos jerarquizados de: r Spearman

Es una técnica no paramétrica que utiliza para medir la fuerza de una relación por pares de 2 variables cuando los datos se encuentran en forma jerarquizados. El objeto de calcular un coeficiente de correlación estos ejemplos es determinar el grado en el que dos conjuntos de jerarquización concuerdan o no. Esta técnica
también se puede extender a calificaciones u otro tipo de medición si estas se convierten a rangos.

Las medidas del grado de concordancia son sol cuadrados de las diferencias entre los dos conjuntos de rangos: si la suma de éstos es pequeña, esto significa que hay acuerdo; si la suma es grande, esto indica lo contrario. EL calculo real de la correlación comprende la formula.

rsp = 1 − 6"d2
n(n2 −1)

En la cual n es el número de observaciones y "d2 es la suma de los cuadrados de la diferencia entre los rangos.
El coeficiente de correlación de jerarquía obtenido recibe el nombre de r Spearman. La suma de la diferencia es cero. Esto no sirve como una comprobación útil de los cálculos aunque no es necesaria en la fórmula.

El procedimiento es como el siguiente:
· Obtener la diferencia en rango para cada par de observaciones
· Como comprobaciones, verificar que la diferencias se sumen a 0
· elevar el cuadrado la diferencias
· sumar los cuadrados de la diferencia para obtener "d2
· Calcular rsp

Si el valor rsp es pequeño para situaciones en donde n es mayor que 10, la hipótesis nula de rsp = 0 puede ser
probada utilizándola la fórmula
rsp − 0
t=
"(1− rsp 2) (n −2)

Datos nominales: el coeficiente de contingencia

Cuando ambas variables se miden en escalas nominales ( es decir , categorías ) , el análisis es fácilmente mediante el desarrollo de una tabla de contingencia semejante a la que se utilizo en el análisis de k proporciones ( prueba de ji cuadrada ), el procedimiento en realidad de aun extensión del análisis de una tabla r * k.

Una medida de relación es calcular el coeficiente de contingencia en C, donde
x2
C=
X2 + N

Un aspecto interesante de una tabla ji cuadrada es que l tamaño máximo posible de x2 es función de N, de las observaciones y del tamaño de la tabla.

En le caso de tabla con los valores cuadrado, esto lleva obtener un valor máximo de C de

K − 1
C max =
k


En el cual k es el número de fila o columnas. La comprar C con C max se pude obtener una idea de la intensidad de la asociación entre la variables.
Esta es una relación moderada, no muy intensa. Su interpretación exacta en parte de la naturaleza de los datos y de los resultados comparables que se obtengan de otros estudios, por lo que es difícil establecer valores definitivos dé intensidades.
Se bebe observar que la formula no fórmula no produce automáticamente el signo del coeficiente de contingencia. DE ahí que no siempre resulte evidente el existe aun relación positiva o negativa.

Ventajas:

· Nos e requiere de supuestos con respectos a la formula de población
· Solamente se necesita una medición nominal ( categorías)

Limitaciones
· El limite superior de C es menor que 1.00 incluso Para un correlación perfecta.
El límite superior depende del tamaño de la tabla, por lo que no son comparables los coeficientes de contingencia de tablas de tamaño diferente

El coeficiente de contingencia no es directamente comprable con otras medidas de correlación, como la r de Pearson y la r de Spearman, o incluso con otras tablas de contingencia de tamaño diferente.

· Cada casilla deberá tener una frecuencia esperada por lo menos 5.
· C max solamente se puede calcular a partir de tabla de valores al cuadrado

1.− Cual es la ecuación de una recta con las siguientes características?
· pendiente 10.2 y ordenada en el origen 5.0.
Yc=5 + 10.2x.
· pendiente 55 y ordenada en el origen 0.
Yc=55x.
· Pendiente 27 y ordenada en el origen −2.
Yc=−2 + 27x.
· Pendiente −13 y ordenada en el origen 200.
Yc=200 − 13x.
· Pendiente 0 y ordenada en el origen 2.4.
Yc=2.4

2.− Calcule los valores de a y b en la ecuación lineal yc =a+bx apartir de las gráficas de la fig. 14.4.
Yc= 6+(7.5/500)x Yc=−1 +(12/4)x

EJERCICIOS PAG. 416

1.− Suponga que una cadena de supermercados financia un estudio sobre los gastos anuales en comestibles de familias de cuatro miembros. La investigación se limitó a familias con ingresos netos que van de $ 8,000 a $20,000 dólares. Se obtuvo la siguiente ecuación:
yc =−200 + .10x
y = gastos anuales estimados
x = ingresos netos anuales

· Estime los gastos de una familia de cuatro miembros con un ingreso anual de $15,000.Como queremos estimar el gasto anual, se sustituye el valor de los ingresos(x) en la ecuación y queda
así:

Yc = −200 + .10(15,000)
Yc = −200 + 1500
Yc= 1300

Uno de los vicepresidentes se preocupa por el hecho de que aparentemente la ecuación indica que una familia con ingreso de $2,000 no gastaría nada en alimentos. ¿Cuál sería su respuesta?

La respuesta es que no tiene de que preocuparse ya que el gasto está estimado para familias con
ingresos de 8000 a 20000 dlls.

· Explique porqué no se podría utilizar en los siguientes casos:
1) estimación en los gastos de familias de cinco miembros.
No es posible ya que la ecuación está calculada para una familia de cuatro miembros.
2) estimación en los gastos de familias cuyos ingresos netos van de $20,000 a $35,000.
No se puede porque la formula se calculo para sueldos menores o iguales a 20,000.
d. Grafique la ecuación.
2.− Un bufete de ingenieros consultores ha establecido la siguiente relación con respecto al rendimiento por galón de automóviles estadounidenses de 6 cilindros, cuyo peso varía de 1500 a 3000 libras:
yc=30 − 0.002x
y=rendimiento millas/galón
x=peso del vehículo

· Represente esta relación con una gráfica y marque los ejes.
· Estime el consumo de gasolina X milla para un auto de peso:
Sustituimos en la formula:
1)2000 lb yc=30 − 0.002(2000)=26
2)1500 lb yc=30 − 0.002(1500)=27
3)2500 lb yc=30 − 0.002(2500)=25

3.− Emplee los siguientes valores de resumen para determinar las ecuaciones de regresión:
a. "x=200, "y=300, "xy=6200, "x2=3600, n=20.
b= 20(6200)−(200)(300)
20(3600)−(200)2
b= 2
a=300−b(200)
20
a=−5

Yc = −5 +2x
b. "x=7.2, "y=37, "xy=3100, "x2=620, n=36.
b= 36(3100)−(7.2)(37)
36(620)−(7.2)2
b= 5
a=37−b(7.2)
36
a=.028
Yc = 5 +.028x
c. "x=700, "y=−250, "xy=−1400, "x2=21000, n=30.
b= 30(−1400)−(700)(−250)
30(21000)−(700)2
b= .95
a=−250−b(700)
30
a=−30.5
Yc = −30.5 +.95x
d. "x=33, "y=207, "xy=525, "x2=750, n=40.
b= 40(525)−(33)(207)
40(750)−(33)2
b= .49
a=207−b(33)
40
a=4.77
Yc =4.77 +x

4.− En el caso de cada conjunto represente estos en una gráfica y si parece apropiada una ecuación lineal, determine los coeficientes a y b a partir de los mismos.

a.
Tamaño Costo total
x y
20 3500
22 3000
25 2000
30 1600
40 1000
45 800
50 900
55 950
60 1100
63 1300
70 1500

Los datos siguen una tendencia polinomial.

b.
Ventas Ingresos
x y
150 15
201 17
225 20
305 21
370 19
380 23
450 21
510 22
560 25
600 24
685 27
725 30
735 27

"x=5896, "y=291, "xy=141502, "x2=3159126, n=13.

Como parece apropiada una ecuación lineal, se determinan los coeficientes a y b con la formula:

b= 13(141502)−(5896)(291)
13(3159126)−(5896)2
b=.2
10a=291−b(5896)
13
a=13.48
Yc = 13.48+.2x

5.− Determine una ecuación que describa la relación entre la frecuencia de accidentes y el nivel de educación preventiva
X Y XY X2
150 8.00 1200 22500
200 7.00 1400 40000
300 6.50 1950 90000
450 5.20 2340 202500
500 6.40 3200 250000
600 4.40 2640 360000
800 4.00 3200 640000
900 3.10 2790 810000
3900 44.60 18720 2415000

n=8

Para encontrar la ecuación se sustituyen los valores en la formula:

b= 8(18720)−(3900)(44.6)
8(18720)−(3900)2
b=.006
a=44.6−b(3900)
8
a=8.44
Yc = 8.44+.006x

6.− Una compañía que tiene 15 tiendas ha recopilado datos en relación con los metros cuadrados de area de ventas respecto a los ingresos mensuales. Trace una gráfica de los datos, y si parece apropiado un modelo lineal determine la ecuación de regresión.

Tienda Metros 2 Ingreso
X Y XY X2
a 55 45 2475 3025
o 80 60 4800 6400
j 85 75 6375 7225
e 90 75 6750 8100
k 90 80 7200 8100
d 110 95 10450 12100
n 130 95 12350 16900
g 140 110 15400 19600
c 180 120 21600 32400
l 180 105 18900 32400
b 200 115 23000 40000
i 200 130 26000 40000
h 215 140 30100 46225
f 260 170 44200 67600
m 300 200 60000 90000
15 2315 1615 289600 430075
}Los datos serían:

"x=2315, "y=1615, "xy=289600, "x2=430075, n=15.
Y se sustituyen los valores en la formula:

b= 15(289600)−(2315)(1615)
15(430075)−(2315)2
b=.5543
a=1615−b(2315)
15
a=22.11
Yc = 22.11+.5543x

Y la grafica sería:

7.− Vuelva a resolver el ejercicio 5 utilizando accidentes como x y nivel horas instrucción. Como y compare la ecuación obtenida con la anterior.

Determine una ecuación que describa la relación entre la frecuencia de accidentes y el nivel de educación preventiva

Accidentes horas
X Y XY X2
3.10 900 2790 9.61
4.00 800 3200 16
4.40 600 2640 19.36
5.20 450 2340 27.04
6.40 500 3200 40.96
6.50 300 1950 42.25
7.00 200 1400 49
8.00 150 1200 64
44.60 3900.00 18720 268.22

n=8

Para encontrar la ecuación se sustituyen los valores en la formula:

b= 8(18720)−(44.6)(3900)
8(268.22)−(44.6)2
b=−154.4
a=3900−b(44.6)
8
a=1348

Yc = 1348−154.4x

8.− Teniendo:

X 1 2 3 4 5 6 7 28
Y 2 4 5 6 7 7 9 40

Utilice los datos para:

a. Calcular los coeficientes a y b de la ecuación.

X Y XY X2
1 2 2 1
2 4 8 4
3 5 15 9
4 6 24 16
5 7 35 25
6 7 42 36
7 9 63 49
28 40 189 140

b= 7(189)− (28)(40)
7(140)−(28)2

b=1.036

a= 40−b(28)
7

a=1.57

Yc = 1.57+1.036x

b. Duplicar cada valor de x y volver a calcular los coeficientes.

X Y XY X2
2 2 4 4
4 4 16 16
6 5 30 36
8 6 48 64
10 7 70 100
12 7 84 144
14 9 126 196
56 40 378 560

b= 7(378)−(56)(40)
7(560)−(56)2
b=.52
a= 40−b(56)
7
a=1.57
Yc = 1.57+.52x

c. Duplicar el valor original de x,y para evaluar de nuevo los coeficientes.


X Y XY X2
2 4 8 4
4 8 32 16
6 10 60 36
8 12 96 64
10 14 140 100
12 14 168 144
14 18 252 196
56 80 756 560

b= 7(756)−(56)(80)

7(560)−(56)2
b=1.036
a= 80−b(56)
7
a=3.14
Yc = 3.14+1.036x

d. Utilizar el valor original de x, pero agregando 2 a cada valor original de y, y recalcular la ecuación de regresión.

X Y XY X2
1 4 4 1
2 6 12 4
3 7 21 9
4 8 32 16
5 9 45 25
6 9 54 36
7 11 77 49
28 54 245 140

b= 7(245)−(28)(54)
7(140)−(28)2
b=1.036
a= 54−b(28)
7
a=3.57
Yc = 1.57+1.036x

9.− Determine una ecuación predictiva para calcular el monto del seguro, en función del ingreso anual para los siguientes datos:

Ingreso Prima

X Y XY X2
13 5 65 169
16 15 240 256
17 20 340 289
18 10 180 324
20 10 200 400
25 12 300 625
26 15 390 676
32 30 960 1024
38 40 1520 1444
40 50 2000 1600
42 40 1680 1764
287 247 7875 8571

b= 11(7875)−(287)(247)
11(8571)−(287)2
b=1.321
a= 247−b(287)
11
a=−12.01
Yc = −12.01+1.321x




La estadística inferencial



En este segundo curso nos adentraremos en los usos de la estadística inferencial. A diferencia de lo conocido hasta aquí (la estadística descriptiva, que nos provee de herramientas para conocer aspectos de una población determinada), la mirada de la estadística inferencial no apunta a lo que tenemos enfrente, sino a lo que no podemos ver aún, es decir, a com-portamientos futuros.}


Planteado en estos términos puede sonar a predicción, en el sentido de conocimiento más o menos certero del porvenir. En absoluto es así. Lo que nos permite la estadística infe-rencial no es el conocimiento de lo que ocurrirá, sino la presunción de lo que más proba-blemente pueda ocurrir. La inferencia, como proceso de la lógica, es lo inverso de la deduc-ción. Esta última colige, a partir de postulados generales, la situación de un caso particular. El proceso inferencial, por el contrario, colige lo general a partir de situaciones particula-res. En palabras de F. Pardinas, la deducción “es aquella en que una proposición más gene-ral enuncia la explicación o la predicción de conductas particulares.” La inducción, por su parte, “muestra en conductas particulares las proposiciones más generales que sirven para la explicación o predicción de conductas en diferentes áreas de fenómenos.”

En efecto. La estadística inferencial se basa en dos grandes pilares: la probabilística, y la teoría de las muestras. La probabilística nos indica qué nivel de probabilidad existe de que ocurra un fenómeno determinado. La teoría de las muestras, por su parte, nos indica el grado de representatividad de un grupo respecto de la población a la que el mismo pertene-ce.

El supuesto en que descansa la estadística inferencial es que, calculado sobre una muestra (o porción de población), cuyo requisito es que sea representativa de la población o universo al que pertenece, es posible establecer, con un margen de error conocido, el grado de probabilidad en que el conjunto de la población se comporte de una manera determina-da.

Revisemos las premisas. La primera es que una muestra debe ser representativa. ¿A qué nos referimos con ello? Significa que la porción sobre la que trabajamos, que es una parte de la población o el universo, es relativamente idéntica al conjunto del que tal porción fue extraída.

La segunda premisa es que resulta posible establecer la probabilidad de ocurrencia de un comportamiento. Esto surge de combinar la ocurrencia de un fenómeno con la canti-dad total de posibilidades de que ello ocurra. Para ponerlo en los sencillos términos de un ejemplo: la probabilidad de que salga un número cualquiera (por ejemplo, el 5) en una tira-da de un dado, es de 0,16, toda vez que 6 es la cantidad total de posibilidades, y un número cualquiera (por ejemplo el 5), es sólo una de ellas. De allí que sea 1/6, que puesto en núme-ros decimales, es 0,16.

La diferencia con la estadística descriptiva no está en su naturaleza, sino en la forma en que utiliza las técnicas. Si usamos estas técnicas únicamente para reunir datos de una población, estamos en el campo de la estadística descriptiva. Si, en cambio, usamos técni-cas estadísticas para estimar parámetros de una población a partir de una muestra de la misma, estamos frente a la estadística inferencial.
Dado que aquí trabajamos con poblaciones y muestras, se utiliza un léxico que dife-rencia a qué referenciamos con cada término; incluso las medidas cambian de simbología. Ponemos en el siguiente cuadro las equivalencias entre las denominaciones para población y muestra.



FORMULAS UTILIZADAS



domingo, 7 de diciembre de 2008

jueves, 4 de diciembre de 2008

UNIDAD 4

Inferencia Estadistica

Es el conjunto de procedimientos que se emplean para hacer inferencia y generalizaciones respecto a una totalidad, partiendo de un numero limitado de casos tomados de esta ultima.


X--Variable aleatoria continua








Estimacion Puntual

La estimacion puntual de algun parametro de la poblacion es un valor numerico de la estadistica

Los problemas de estimacion se presentan muy a menudo en ingenieria y aveces es necesario estimar la media de la poblacion. La varianza de proporcion de objetos de una poblacion que pertenecen a cierta clase de interes, por ejemplo :







Si X es la media muestral de una muestra aleatoria de tamaño n de un apoblación con varianza conocida, un intervalo de confianza para M de un porcentaje de confianza 100(1- α) está dado por:





La diferencia de medias entre 2 poblacionnes (M1-M2)

Distribucion de Muestras

Si X1, X2 ... Xn, es una muestra aleatoria de tamano n tomada de una poblacion (finita o no infinita) son media (M) y varianza finita y si X es la media muestral, entonces la forma limite de la distribucion Z cuando n tiende infinito es una distribucion normal estandar:








La aproximacion normal depende del tamano de la muestra

Si n ≥ 30 , se puede aplicar el TLC, para una poblacion con cualquier tipo de distribucion de probabilidad

Diferencia de Medias

Sean 2 poblaciones con medias M1 y M2, y varianzas conocidas
condicion:

Muestra debe ser n ≥ 30

si es menor, debemos tener la confianza de que la poblacion se distribuye de manera normal

Distribucion T

Se utiliza en el caso que la poblacion tenga "comportamiento normal"

Pero el tamano de la muestra es pequena ( n <>

El estadistico de T es el siguiente:




Distribucion Ji cuadrada

si se extraen todas las muestras posibles de una población normal y a cada muestra se le calcula su varianza, se obtendrá la distribución muestral de varianzas.
Para estimar la varianza poblacional o la desviación estándar, se necesita conocer el estadístico X2.
Si se elige una muestra de tamaño n de una población normal con varianza , el estadístico: donde n es el tamaño de la muestra, s2 la varianza muestral y la varianza de la población de donde se extrajo la muestra.

El estadistico de Ji cuadrada es el siguiente:








DISTRIBUCION DE LA F



Se emplea para probar si dos muestras provienen de poblaciones que poseen varianzas iguales. Esta prueba es útil para determinar si una población normal tiene una mayor variación que la otra y también se aplica cuando se trata de comparar simultáneamente varias medias poblacionales. La comparación simultánea de varias medias poblacionales se conoce como análisis de varianza. En ambas situaciones, las poblaciones deben ser normales y los datos tener al menos la escala de intervalos. La distribución F se define como la razón entre dos distribuciones ji cuadrada independientes, dividida cada una de ellas entre sus respectivos grados de libertad.


1.- Una compania de lectronica fabrica resistencias que tienen un valor promedio de 100 ohms y una desviacion estandar de 10 ohms. La distribucion de la resistencia es normal. Encuentre la prob. de que al tomar una muestra de n=25 resistencias, la resistencia promedio sea menor que 95ohms.

µ=100homs

σ=10 homs

P = Z < ( 95 - 100/10/√2) = Z < - 2.5 = .0062 n= 25



P = Z < ( 95 - 100/10/√2) = Z < - 2.5 = .0062 2.-Se toma una muestra de tamano aleatoria n=16 de una poblacion normal que tiene una media de 75 y una des. estandar de 8 y otra poblacion de 9, media 70 y des. estandar 12

a) Encuentre la prob. de que
P(X1-X2 > 4)


= 4 - (75-70) / √ (4 + 16)

= - 1 / 4.47

= -.223

P(X1-X2 > 4 ) = P(Z>-.22)

= 1 - .4168

= .5832



3.- El fabricante de un agente propulsor utilizado en sistemas de escape de emergencia le gustaria afirmar que su producto tiene una taza promedio de combustion de 40 plgs. por minuto. para Investigar esta proposicion, el fabricante prueba 25 granos de propulsion seleccionados alazar, si esl valor calculado -t.05,24 y t.05,24, entonces queda satisfecho. A que conclusion debe llegar el fabricante si tiene una distribucion de X = 42.5 inc/min y una desviacion estandar de .75 plgs/min.
Supongase que la taza de combustion tiene una distribucion normal.

-t.05,24 y t.05,24


n=25 granos
X= 42.5 inc/min
S=.075
M = 40 plgs



= 42.5 - 40 / .75/5

=2.5/1.5

= 16.66

4.- Considere los datos de conductividad del hierro.
Construya un intervalo de 95% para la coductividad terminca promedio y que se sabe que la desviacion estandar de la conductividad a 100 grados F y 550 wtts es de .3 btu/h-ft grado F

La conductividad termica es normal.

X=41.924 y n= 10


41.924 - 1.96 (.3/√10) <= M <= 41.924 + 1.96 (.3/√10) 41.738 <= M <= 42.110 5.- Los sistemas de escape de emergencia para tripulaciones de aeronave son impulsados por un combustible solido. Una de las caracteristicas importantes de este producto es la rapidez de la combustion. Las especificaciones requieren que la rapidez promedio de combustion sean 50 cm/seg. se sabe que la desviacion estandar de esta rapidez es de 2 cm/seg. El esperimentador decido especificar una prob. para el erro tipo I o nivel de significancion de a=.05. Selecciona una muestra de n=25 y obtiene una rapidez promedio muestral de cumbustion de 51.3 cm/seg. a) Utilizando la prueba de hipotesis, llegar a una conclusion.

M= 50 cm/seg

H0 : M=50

H1 : M ≠50

a=.05



El estadistico a utilizar es

porque conocemos la media y la varianza

Z* = 51.3 - 50 / 2 / √25

= 1.3 / .4

Z* = 3.25

Se toma decision

si Z* > Zα/2 o Z* < -Zα/2 se rechaza Ho como 3.25 > 1.96, por lo tanto se rechaza Ho.

Conclusion

Existe evidencia estadistica de que el valor especificado no se esta cumpliendo



Intervalos de Confianza

un intervalo de confianza es un rango de valores (calculado en una muestra) en el cual se encuentra el verdadero valor del parámetro, con una probabilidad determinada.

La probabilidad de que el verdadero valor del parámetro se encuentre en el intervalo construido se denomina nivel de confianza, y se denota 1-. La probabilidad de equivocarnos se llama nivel de significancia y se simboliza . Generalmente se construyen intervalos con confianza 1-=95% (o significancia =5%). Menos frecuentes son los intervalos con =10% o =1%.

Si es la media muestral de una muestra aleatoria de tamano n de una poblacion con varianza conocida, un intervalo de confianza para M de un porciento de confianza esta dado por :





donde Zα/2 corresponde al valor de la distribucion normal pura α/2.

Pruebas de Hipotesis

Al realizar pruebas de hipótesis, se parte de un valor supuesto (hipotético) en parámetro poblacional. Después de recolectar una muestra aleatoria, se compara la estadística muestral, así como la media (x), con el parámetro hipotético, se compara con una supuesta media poblacional (). Después se acepta o se rechaza el valor hipotético, según proceda. Se rechaza el valor hipotético sólo si el resultado muestral resulta muy poco probable cuando la hipótesis es cierta.

Se prueban los parametros de la poblacion y esos se han obtenido de:

-Experiencia en el proceso
-Especificaciones del proceso

Tipos de Hipotesis

Bilateral

Ho : M = 50 - Hipotesis Nula
H1 : M ≠ 50 - Hipotesis Alternativa

Unilateral

Ho : M ≤ 50 - Hipotesis Nula
H1 : M > 50 - Hipotesis Alternativa

Ho : M ≥ 50 - Hipotesis Nula
H1 : M <>


¿Como plantear Hipotesis?



P(Error tipo I) = α = P(Rechazar Ho/Ho verdadera) el valor de α lo decide el investigador

Ho : M ≥ 0 - Lo que queremos rechazar o aceptar
H1 : M <> Zα