Superposición del sitio

Una metodología para el tratamiento de la multicolinealidad

Una metodología para el tratamiento de la multicolinealidad

Se presenta el escalamiento multidimensional como estrategia alternativa para tratar el problema de multi- colinealidad en el análisis de regresión múltiple, cuando las variables regresoras son cualitativas, cuantita- tivas o mixtas (cuantitativas y cualitativas) y la variable respuesta es continua. El propósito es obtener la matriz de coordenadas principales usando como métrica la distancia de Gower si las variables predictoras son mixtas o, en caso contrario, otra distancia de tipo Euclideana, y a partir de esta matriz estimar el mo- delo de regresión. Para observar las bondades del método propuesto, se realizan dos casos de simulación: el primero sin presencia de multicolinealidad y el segundo con presencia de multicolinealidad. Se muetran dos casos de aplicación analizados por [46] mediante regresión múltiple, en los casos simulados y en las aplicaciones se utilizó el paquete estadístico R. Los resultados de las simulaciones y aplicaciones se com- paran con la regresión múltiple clásica y la basada en componentes principales. El análisis propuesto es una alternativa de modelamiento que corrige la colinealidad y permite trabajar con variables explicativas sin pérdida de información; además, esta técnica al transformar las variables originales en coordenadas, en su modelamiento logra ocultar el efecto de las variables observadas, de manera que no se manipulen los resultados.

Metodología fundamentada en el escala- miento multidimensional

La matriz de datos X de orden n×p dada en (1), se conforma al observar p variables explica- tivas asociadas a n individuos; puede darse el ca- so en que las variables sean cuantitativas o cuali- tativas o mixtas, teniéndose p1 variables continuas,

p2 variables dicotómicas y p3 variables categóricas (p1+p2+p3 =p).Apartirdelamatrizdedatos,se define la matriz de distancias Dn×n, entonces el pro- pósito es representar esta matriz mediante un con- junto de variables ortogonales llamadas coordena- das principales; de manera que las distancias sean lo más próximas posibles a las distancias o disimila- ridades de la matriz original,

X = 􏰀xt1,xt2,…,xti,…,xti′,…,xtn􏰁 (1) donde cada xti corresponde al i-ésimo vector fila de

la matriz X.

En la matriz D = (δii′ ) = (d(i,i′)), cada δii′ co- rresponde a la distancia entre los individuos i y i′, que satisface las siguientes propiedades: d(i,i′) ∼= 0 sixi ∼=xi′,ysiademás,d(i,i′)≤d(i′,k)+d(k,i′)se dice que la distancia es una métrica. Para el caso de estudio, si las variables son mixtas, las distancias se estimarán a través del coeficiente de similaridad propuesto por [25] y se define:

Sara Cristina Guerrero, Oscar Orlando Melo

∑p1 k=1

􏰆1− |xik −xi′k|􏰇+c1ii′ +mii′ rk

page4image2404756416

sii′ =
donde c1ii′ número coincidencias de la forma (1,1) y

(2)

page4image2404763104

12

p1 + ( p2 − c0ii′ ) + p3
c0ii′ número de coincidencias (0,0), para las p2 varia-

bles dicotómicas, mii′ es el número de coincidencias para las p3 variables cualitativas y rk es el rango (o distancia) para la k-ésima variable cuantitativa.

En el caso donde las p variables sean de tipo bi- nario las similaridades entre dos individuos i e i′ se definen a través de los índices:

􏰆

B= I−

1 􏰇 􏰆 1 􏰇
J A I− J (7)

nn

c1ii′
c1ii′ +c2ii′ +c3ii′

(Jaccard)

Sara Cristina Guerrero, Oscar Orlando Melo

page5image2364388000
page5image2364388272

sii′ =

sii′ =

c1ii′ +c0ii′ p

(Sokar-Michene) (3)

donde J es la matriz de unos, I es la matriz identi- dad y B es de rango m, (m ≤ n − 1). Como B ha sido construida sobre una métrica Euclídea es posible ob- tener su descomposición espectral:

B = LΛLt (8)

donde L es la matriz de vectores propios de B, Λn×npena es la matriz diagonal de los valores propios deB.Además,severificaqueB=ZZt yZtZ=Λ. Por conveniencia la matriz de valores propios se or- denan en forma descendente λ1 ≥ λ2 ≥, …, ≥ λm ≥ 0, y finalmente, se obtiene la matriz de coordenadas principales:

1
Z = LΛ 2 (9)

Obteniendo la matriz de coordenadas principales, se procede a plantear el modelo de regresión.

4. Planteamiento del modelo

Suponga que se tiene en general, un conjunto de datos con p variables predictoras mixtas, (p1 conti- nuas, p2 dicotómicas y p3 variables cualitativas con más de dos estados) y la variable respuesta observa- da de tipo continuo. El modelo de regresión clásico expresado en términos de las p variables regresoras corresponde:

page5image2362206864
page5image2362207136

siendo c0ii′ , c1ii′ , c2ii′ y c3ii′ las frecuencias de (0,0), (1,1), (1,0), y (0,1), respectivamente, verificándose

p = c0ii′ +c1ii′ +c2ii′ +c3ii′.

Cuando las variables predictoras sean de tipo con- tinuo, la distancia entre los individuos se halla a par- tir de la distancia Euclídea, Mahalanobis, Manha- tan, o valor absoluto, entre otras, de acuerdo a las características de las variables (escalas de medición o correlación).

page5image2364418656
page5image2364418928

􏰊p
δii′ = ∑(xik −xi′k)2

(Euclídea) (4)

k=1
δii′ =􏰉(xi − xi′ )t Σ−1 (xi − xi′ ) (Mahalanobis)

donde xi y xi′ son vectores asociados al i-ésimo e i′- ésimo individuo, respectivamente y Σ la matriz de varianzas y covarianzas.

El punto de partida de la estrategia de análisis pa- ra remediar el problema de colinealidad es estimar la matriz de distancias euclidiana D [25, 32, 42], donde cada δii′ puede ser transformado a partir del coeficiente de similaridad:

δii′ =􏰈1−sii′ (5)

En general al conformar la matriz de similarida- des, los elementos de su diagonal pueden ser sii′ ̸= 1. La transformación que permite pasar de similaridad a distancia es:

􏰈

p yi=θ0+∑θjxij+εi, j=1

i=1,2,…,n (10)

page5image2362241904
page5image2362242176

δii′ =
Una vez estimado D, se define la matriz A =

Y = Xθ + ε (11) = (y ,y ,…,y )t, X = (1,x ,x ,…,x )

sii +si′i′ +2sii′ (6) 2

donde Y
con 1 un vector de unos, θ = (θ0,θ1,…,θp) y ε = (ε1,ε2,…,εn). Bajo condiciones de rango completo de la matriz X, el vector de parámetros estimados e s t a d a d o p o r θ θˆ = ( X t X ) − 1 X t Y .

1δ′
− D(2), donde cada aii′ = − ii . Luego se proce-

donde θ0 es el intercepto, θ1 , θ2 , …, θ p son los pa- rámetros desconocidos asociados a las variables de los datos originales y εi es el término del error εi ∼ N(0,σε2). Altenativamente, expresándolo matri- cialmente, se tiene:

page5image2362257760

n×112n 12p

page5image2362259504
page5image2362259776

22
de a aplicar doble centrado sobre A, se conforma

la matriz Bn×n simétrica y semidefinida positiva [43, 44, 35, 45] puesto que ha sido construida sobre una distancia Euclídea.

Al plantear la matriz de coordenadas principa- les definida en (9), las columnas de la matriz Z,

Hable EN VIVO con un Profesor