Superposición del sitio

Clúster no Jerárquico

Clúster no Jerárquico

Los procedimientos de aglomeración no jerarquizados tambiénse llaman métodos de aglomeración de K-medias. En los rocedimientos no jerárquicos no se construyen árboles. En su lugar, se asignan los objetos a conglomerados una vez que el número de conglomerados a formar está especificado.

Funciones en software R.

En el leguaje R (R Development Core Team2016) se implementan una serie de algoritmos no jerárquicos. En el paquete stats se puede encontrar la función kmeans() del método de aglomeración de K-medias y en el paquete clúster las funciones pam(), clara() y fanny() para los métodos pam, clara y fanny respectivamente. Ejemplos para los cuatros métodos en códigos de R:

Cargar base de datos
data(iris)
head(iris)
remover la columna cinco y escalar los datos
iris.scaled<- scale(iris[, -5])

Agrupamiento K-means

R dispone de la función kmeans() con 4 métodos de agrupamiento.
set.seed(123)
km.HW<- kmeans(iris.scaled, 3, algorithm = “Hartigan-Wong”, nstart = 25)
km.L<- kmeans(iris.scaled, 3, algorithm = “Lloyd”, nstart = 25)
km.F<- kmeans(iris.scaled, 3, algorithm = “Forgy”, nstart = 25)
km.MQ<- kmeans(iris.scaled, 3, algorithm = “MacQueen”, nstart = 25)
km.HW$cluster# número de conglomerado de pertenencia de cada individuo
km.HW$centers#Centros de los grupos (media de los individuos en cada variable)
km.HW$withinss#Suma de cuadrados dentro de grupos.
km.HW$size#Número de individuos asignados a cada grupo
km.HW$totss#Suma total de los cuadrados
km.HW$tot.withinss#Suma de cuadrados de los 3 grupos
km.HW$betweenss#La resta de la suma de cuadrados total menos la suma de #cuadrados de los 3 grupos (totss – tot.withinss)
plot(iris.scaled, col =km.HW$cluster)# Visualización de los conglomerados
points(km.HW$centers, col = 1:2, pch = 8, cex = 2)

Kmedias12.jpeg

Algoritmo PAM

(PartitioningAroundMedoids), usa k-medoid para identificar agrupamientos,trabaja bien en bases de datos pequeñas, pero es lento en grandes. Un medoidese podría definir como el objeto perteneciente a un cluster o conglomerado, cuyo promedio de disimilaridad a todos los objetos en el conglomerado es mínima, es decir, que se puede considerar como el punto máscéntrico de la agrupación considerada.

Agrupamiento PAM
pam.I<- pam(iris.scaled, 3)
summary(pam.res)
plot(pam.res)

PAM12.jpeg

Algoritmo CLARA

(ClusteringLargeApplications) crea múltiples muestras de los datos y después aplica PAM a la muestra.
Agrupamiento CLARA
clara.I<- clara(iris.scaled, 2)
clara.I
clara.I$clusinfo
plot(clara.I,ask = TRUE)

Clara12.jpeg

Algoritmo FANNY

utiliza un valor “k” que indica el número de grupos a formar 0 < k < n/2; n es el número de observaciones.Es un análisis de conglomerados donde cada individuo tiene un grado de pertenencia difuso a los grupos.
Agrupamiento FANNY
fanny.I<- fanny(iris.scaled, 3)
summary(fanny.I)
plot(fanny.I, ask = TRUE)

Fanny12.jpeg

Requerimientos

Para su ejecución se requiere de una plataforma Windows® y el lenguaje de programación, orientado a objetos, denominado R. Este es un lenguaje de programación y un entorno para el análisis estadístico y la realización de gráficos.

Abrir chat
Hable EN VIVO con un Profesor
A %d blogueros les gusta esto: