Una metodología para el tratamiento de la multicolinealidad
Se presenta el escalamiento multidimensional como estrategia alternativa para tratar el problema de multi- colinealidad en el análisis de regresión múltiple, cuando las variables regresoras son cualitativas, cuantita- tivas o mixtas (cuantitativas y cualitativas) y la variable respuesta es continua. El propósito es obtener la matriz de coordenadas principales usando como métrica la distancia de Gower si las variables predictoras son mixtas o, en caso contrario, otra distancia de tipo Euclideana, y a partir de esta matriz estimar el mo- delo de regresión. Para observar las bondades del método propuesto, se realizan dos casos de simulación: el primero sin presencia de multicolinealidad y el segundo con presencia de multicolinealidad. Se muetran dos casos de aplicación analizados por [46] mediante regresión múltiple, en los casos simulados y en las aplicaciones se utilizó el paquete estadístico R. Los resultados de las simulaciones y aplicaciones se com- paran con la regresión múltiple clásica y la basada en componentes principales. El análisis propuesto es una alternativa de modelamiento que corrige la colinealidad y permite trabajar con variables explicativas sin pérdida de información; además, esta técnica al transformar las variables originales en coordenadas, en su modelamiento logra ocultar el efecto de las variables observadas, de manera que no se manipulen los resultados.
Metodología fundamentada en el escala- miento multidimensional
La matriz de datos X de orden n×p dada en (1), se conforma al observar p variables explica- tivas asociadas a n individuos; puede darse el ca- so en que las variables sean cuantitativas o cuali- tativas o mixtas, teniéndose p1 variables continuas,
p2 variables dicotómicas y p3 variables categóricas (p1+p2+p3 =p).Apartirdelamatrizdedatos,se define la matriz de distancias Dn×n, entonces el pro- pósito es representar esta matriz mediante un con- junto de variables ortogonales llamadas coordena- das principales; de manera que las distancias sean lo más próximas posibles a las distancias o disimila- ridades de la matriz original,
X = xt1,xt2,…,xti,…,xti′,…,xtn (1) donde cada xti corresponde al i-ésimo vector fila de
la matriz X.
En la matriz D = (δii′ ) = (d(i,i′)), cada δii′ co- rresponde a la distancia entre los individuos i y i′, que satisface las siguientes propiedades: d(i,i′) ∼= 0 sixi ∼=xi′,ysiademás,d(i,i′)≤d(i′,k)+d(k,i′)se dice que la distancia es una métrica. Para el caso de estudio, si las variables son mixtas, las distancias se estimarán a través del coeficiente de similaridad propuesto por [25] y se define:
Sara Cristina Guerrero, Oscar Orlando Melo
∑p1 k=1
1− |xik −xi′k|+c1ii′ +mii′ rk

sii′ =
donde c1ii′ número coincidencias de la forma (1,1) y
(2)

12
p1 + ( p2 − c0ii′ ) + p3
c0ii′ número de coincidencias (0,0), para las p2 varia-
bles dicotómicas, mii′ es el número de coincidencias para las p3 variables cualitativas y rk es el rango (o distancia) para la k-ésima variable cuantitativa.
En el caso donde las p variables sean de tipo bi- nario las similaridades entre dos individuos i e i′ se definen a través de los índices:
B= I−
1 1
J A I− J (7)
nn
c1ii′
c1ii′ +c2ii′ +c3ii′
(Jaccard)
Sara Cristina Guerrero, Oscar Orlando Melo


sii′ =
sii′ =
c1ii′ +c0ii′ p
(Sokar-Michene) (3)
donde J es la matriz de unos, I es la matriz identi- dad y B es de rango m, (m ≤ n − 1). Como B ha sido construida sobre una métrica Euclídea es posible ob- tener su descomposición espectral:
B = LΛLt (8)
donde L es la matriz de vectores propios de B, Λn×npena es la matriz diagonal de los valores propios deB.Además,severificaqueB=ZZt yZtZ=Λ. Por conveniencia la matriz de valores propios se or- denan en forma descendente λ1 ≥ λ2 ≥, …, ≥ λm ≥ 0, y finalmente, se obtiene la matriz de coordenadas principales:
1
Z = LΛ 2 (9)
Obteniendo la matriz de coordenadas principales, se procede a plantear el modelo de regresión.
4. Planteamiento del modelo
Suponga que se tiene en general, un conjunto de datos con p variables predictoras mixtas, (p1 conti- nuas, p2 dicotómicas y p3 variables cualitativas con más de dos estados) y la variable respuesta observa- da de tipo continuo. El modelo de regresión clásico expresado en términos de las p variables regresoras corresponde:


siendo c0ii′ , c1ii′ , c2ii′ y c3ii′ las frecuencias de (0,0), (1,1), (1,0), y (0,1), respectivamente, verificándose
p = c0ii′ +c1ii′ +c2ii′ +c3ii′.
Cuando las variables predictoras sean de tipo con- tinuo, la distancia entre los individuos se halla a par- tir de la distancia Euclídea, Mahalanobis, Manha- tan, o valor absoluto, entre otras, de acuerdo a las características de las variables (escalas de medición o correlación).


p
δii′ = ∑(xik −xi′k)2
(Euclídea) (4)
k=1
δii′ =(xi − xi′ )t Σ−1 (xi − xi′ ) (Mahalanobis)
donde xi y xi′ son vectores asociados al i-ésimo e i′- ésimo individuo, respectivamente y Σ la matriz de varianzas y covarianzas.
El punto de partida de la estrategia de análisis pa- ra remediar el problema de colinealidad es estimar la matriz de distancias euclidiana D [25, 32, 42], donde cada δii′ puede ser transformado a partir del coeficiente de similaridad:
δii′ =1−sii′ (5)
En general al conformar la matriz de similarida- des, los elementos de su diagonal pueden ser sii′ ̸= 1. La transformación que permite pasar de similaridad a distancia es:
p yi=θ0+∑θjxij+εi, j=1
i=1,2,…,n (10)


δii′ =
Una vez estimado D, se define la matriz A =
Y = Xθ + ε (11) = (y ,y ,…,y )t, X = (1,x ,x ,…,x )
sii +si′i′ +2sii′ (6) 2
donde Y
con 1 un vector de unos, θ = (θ0,θ1,…,θp) y ε = (ε1,ε2,…,εn). Bajo condiciones de rango completo de la matriz X, el vector de parámetros estimados e s t a d a d o p o r θ θˆ = ( X t X ) − 1 X t Y .
1δ′
− D(2), donde cada aii′ = − ii . Luego se proce-
donde θ0 es el intercepto, θ1 , θ2 , …, θ p son los pa- rámetros desconocidos asociados a las variables de los datos originales y εi es el término del error εi ∼ N(0,σε2). Altenativamente, expresándolo matri- cialmente, se tiene:

n×112n 12p


22
de a aplicar doble centrado sobre A, se conforma
la matriz Bn×n simétrica y semidefinida positiva [43, 44, 35, 45] puesto que ha sido construida sobre una distancia Euclídea.
Al plantear la matriz de coordenadas principa- les definida en (9), las columnas de la matriz Z,