Geoinformática - Práctica 6

Agrupamiento, Regionalización y Segmentación Geodemográfica

Esta práctica pretende introducir al concepto del Agrupamiento (Clustering) Estadístico de las observaciones espaciales. Existen múltiples fenómenos de gran complejidad en el Análisis Espacial que involucran un sinnúmero de particularidades y, por ende, son difíciles de comprender a través de una sola variable; en términos estadísticos, este tipo de fenómenos son conocidos como Multivariados, a diferencia de aquellos Univariados en los que sólamente una única variable es considerada para el análisis.

Lo que el Agrupamiento y la Regionalización pretenden hacer es abordar los fenómenos multivariados y reducirsu dimensionalidad, esto es, disminuir el número de variables relevantes para el análisis, y generar un conjunto de clases más intuitivas de forma que puedan ser entendidas tanto cualitativa como cuantitativamente. Ésta es la razón por la que los algoritmos de Agrupamiento y Regionalización son ampliamente utilizados en áreas como el Diseño de Políticas Púlbicas o en el Marketing; además, debido a que estos métodos no requieren de muchas suposiciones desde el punto de vista estadístico, son comúnmente utilizadas como herramientas de exploración de datos, pues permiten visualizar fácilmente la forma, distribución y contenido de un conjunto de datos.

La idea básica detrás del Agrupamiento Estadístico es sintetizar la información contenida en múltiples variables creando un número relativamente pequeño de categorías, de tal forma que a cada una de las observaciones se les asigne una, y sólo una, de estas categorías, en función de los valores de sus variables, considerados desde un inicio en la clasificación.

Si se ejecuta correctamente, este ejercicio reduce la complejidad de un fenómeno al mismo tiempo que mantiene toda la información de interés de los datos originales; esto gracias a que, una vez clasificados, el analista únicamente necesita observar la categoría a la que una observación dada pertenece, en lugar de considerar una multitud de valores asociados a cada una de estas variables e intentar interpretar cómo es que todas se relacionan.

Cuando el Agrupamiento considera también la componente espacial de los datos, entonces el algoritmo recibe el nombre de Regionalización; si, a su vez, se consideran variables socio-económicas dentro del análisis, entonces se dice que se realiza una Segmentación Geodemográfica.

Aunque existe una gran variedad de técnicas que permiten agrupar las observaciones de un conjunto de datos, todas ellas se basan en la premisa de utilizar un conjunto de atributos para definir clases o categorías de observaciones que sean similares entre ellas mismas, pero sean diferentes entre cada uno de los grupos. La forma en la que define esta similitud entre observaciones y disimilitud entre categorías depende enteramente de cómo opera el algoritmo seleccionado, lo que diferencía a cada uno de los algoritmos disponibles y, dependiendo del objetivo del análisis, da preferencia a algunos sobre otros. En esta práctica, únicamente se utilizará uno de estos métodos de Agrupamiento Estadístico, K-Medias (K-Means)

Para el caso particular de la Regionalización, aunque los métodos pueden recibir múltiples nombres y ejecutarse de formas diferentes, todos ellos toman como referencia la misma base que el Agrupamiento Estadístico, siendo la diferencia clave que las observaciones necesitan ser vecinas para poder colocarse en una misma categoría; debido a esto, resulta más formal llamar como áreas a cada una de las observaciones dadas, así como regiones a las categorías generadas, teniéndose que las regiones son construídas de áreas más pequeñas.

Esta práctica consiste de dos secciones, cada una abordando particularidades del tema:

Parte 1 - Introducción a la Regionalización

Parte 2 - Homogeneidad y Correlación de Variables