JC.com

Cálculo de la Superficie bajo la curva de Lorentz, e Índice de Gini

Autor

Javier Colomo Ugarte


Introducción

Los estadísticos más utilizados para conocer la distribución de los datos entre dos variables son el gráfico de la curva de Lorentz, y el Coeficiente e Índice de Gini.

Existen varias formulas para el cálculo del  Índice de Gini, una de ellas es a partir de la obtención de la superficie bajo la curva de Lorentz.

 

Elaboración del gráfico del área de Lorentz

El Gráfico del área de Lorentz, viene determinado por la intersección de los ejes Y - X en un cuadrado regular en el que cada eje tiene un valor igual a 100.

 

Trazando las líneas de intersección de las cien unidades de los ejes Y - X, el resultado es una retícula con una superficie iguala a 100 x 100 = 10.000 cuadrados, siendo el valor de la superficie de cada cuadrado igual a 1.

La diagonal trazada desde el punto cero de intersección de los ejes Y - X, divide el cuadrado en dos triángulos rectángulos, con una superficie equivalente a 10.000/2 = 5.000 cuadrados cada uno.

La suma de los 100 triángulos rectángulos que crea la diagonal es igual al equivalente de 100/2 = 50 cuadrados.

 

Línea  de Lorentz

Para trazar  la distribución de los datos entre dos variables, se precisa en primer lugar marcar los puntos de intersección de la dos variables a comparar.

En el siguiente ejemplo, se va a calcular la distribución de la riqueza mundial, a partir de dos variables: 1ª la riqueza mundial (Y); 2ª el número de adultos que poseen la riqueza (X), dividida en cuatro tramos de riqueza.

1. El número de adultos que poseen más de un millón de dólares ($) estadounidenses.

2. Los que poseen entre 100.000 y un millón de dólares.

3. Los que poseen entre 10.000 a 100.000 dólares.

4. Los que su riqueza está por debajo de los 10.000 dólares.

Los datos para los cuatro tramos de riqueza es la siguiente:

Fuente datos. Research Institute. Credit Suisse. Año 2017. Elaboración propia.

Par obtener los puntos de intersección de las dos variables elaboramos una tabla en la que:

1º Las cifras absolutas de las variables Y -X ocuparán las dos primeras columnas.

2º- Ordenamos los datos por el eje Y de forma ascendente.

3º En la tercera columna, obtenemos los porcentajes de cada serie de datos del eje Y (riqueza , y en la cuarta columna los del  eje X (adultos).

4º- Sumamos los porcentajes acumuladamente.

El resultado sería el siguiente:

 

Los porcentajes acumulados nos dan los puntos de intersección de las series de datos del eje Y con el eje X, y la unión de los mismos mediante una línea nos ofrece el área de Lorentz debajo de la misma.

 

Cálculo del área bajo la línea de Lorentz

La superficie bajo la línea que une los puntos de intersección forma un área irregular, la cual hay que calcularla descomponiéndola en diferentes formas geométricas regulares y sumando las mismas.

Todo área bajo la línea de Lorentz se puede dividir en triángulos y rectángulos.

El número de triángulos siempre será uno más que el número de rectángulos debido a que el triángulo que forma la primera serie de datos forma un área regular (triángulo), y por lo tanto no precisa su fragmentación. El resto de formas se dividen en rectángulos en la base y triángulos en su parte superior.

En el siguiente ejemplo se puede ver la división completa en triángulos y rectángulos.

 

Área de los triángulos

La altura de los triángulos es igual al porcentaje de cada serie de datos en el eje Y.

La base de los triángulos es igual al porcentaje de cada serie de datos en el eje X .

Conocidos estos datos se obtiene el área de los triángulos.

La superficie total sería igual a la suma de sus áreas.

En el ejemplo, el área que ocupan los triángulos suma 391,99 cuadrados de la retícula.

 

Área de los rectángulos

En el cálculo del área de los rectángulos, la altura sería igual al porcentaje acumulado de las series de datos del eje Y. La última serie de datos no se tiene en cuenta porque lo ocupa el triángulo final.

La base del rectángulo primero sería igual al porcentaje de la serie  de datos en el eje X, pues el porcentaje de la 1ª serie de datos corresponde al triángulo primero. El resto de bases de cada rectángulo será siempre el valor porcentual de la siguiente serie de datos en X.

El área que ocupan los rectángulos suma 209,91 cuadrados de la retícula.

La suma de las áreas de los triángulos y rectángulos da como resultado el área total bajo la línea de Lorentz: 391,99 + 209,91 = 601,90 cuadrados de la retícula.

Una vez conocido este valor, el cálculo del coeficiente e índice de Gini sería el siguiente:

 

Cálculo del coeficiente e índice de Gini

 

La superficie total del triángulo inferior que conforma la diagonal es igual a: 100 x 100/2 =5.000 cuadrados de la retícula.

La superficie bajo la línea de Lorentz ocupa 601,90 cuadrados de la retícula.

El área entre la línea de Lorentz y la diagonal representa la superficie de concentración: 5.000 - 601,90= 4.398 cuadrados de la retícula.

El Coeficiente de Gini se obtiene dividiendo la superficie de concentración por la superficie total del triángulo general que conforma la diagonal:  4.398 / 5.000 = 0,88; siendo en este coeficiente el valor (1) igual a la máxima desigualdad: 5.000/5.000=1; (un solo adulto posee toda la riqueza), y  el valor (0) igual a la máxima igualdad: 0/5.000=0; (todos los adultos del mundo poseen la misma riqueza), el cual representa a la diagonal que equivale a la distribución perfecta entre el eje X, y el eje Y.

El Coeficiente de Gini visto en porcentaje se define como el Índice de Gini, e indica que el grado de concentración de la riqueza mundial es del 88%.

 

Línea y Curva de Lorentz

Hasta ahora, se habrá observado que se ha venido usando el término línea de Lorentz en lugar de curva de Lorentz. Ello es porque la línea que trazamos para unir los puntos de intersección de las dos variables no es curva sino la unión de varias rectas, lo que nos permite calcular el área de la forma geométrica irregular bajo esa línea dividiéndola en formas geométricas regulares.

Pero en realidad la línea ajustada que debiera unir los puntos de intersección de las dos variables tiene que ser curva, acentuándose su curvatura en la medida que disminuye el área bajo la curva de Lorentz, y  aumenta por lo tanto la superficie de concentración.

En el caso de una distribución perfecta entre el eje X, y el eje Y, el resultado sería la diagonal, y la línea curva y la recta serían idénticas.

El siguiente gráfico muestra las diferencias.

 

En el ejemplo, la curva de Lorentz dibujada en verde ofrece bajo la misma una superficie menor  que la línea roja formada por rectas, por lo que el procedimiento anterior para realizar los cálculos del Índice de Gini refleja siempre una superficie mayor bajo la línea de Lorentz y, como resultado, el Índice de Gini es menor.

El cálculo del método anterior de división de la superficie en formas geométricas regulares no sirve en el caso de una línea curva, pues cualquier forma geométrica con un lado curvo siempre nos ofrecerá una forma geométrica irregular. Por ello, el procedimiento de obtención del área bajo la curva de Lorentz, debe ser diferente.

El cálculo se puede realizar aplicando un método estadístico en el que sabemos que la superficie de cada cuadrado de la retícula es igual a 1, por lo que si contamos los cuadrados que hay bajo la curva de Lorentz obtendremos la superficie total de los cuadrados que no los fracciona la línea curva de Lorentz.

Para los cuadrados que la curva de Lorentz los fracciona en dos porciones se aplica un valor de 0,5; pues se demuestra estadísticamente que el valor central de 0,5 es el óptimo que compensa las fracciones entre un valor inferior a o,5 y las fracciones con un valor superior .

La suma del número de cuadrados con valor 1 y con valor 0,5, nos daría como resultado la superficie real bajo la curva de Lorentz. En el presente ejemplo, el número de cuadrados con valor 1, es de 393, y el número con valor 0,5 es de 191,5.

Con este método, la superficie bajo la curva de Lorentz sería igual:

 

En el primer cálculo por áreas geométricas, el Índice de Gini  es de 88%, mientras que el realizado por cálculo estadístico en base a los cuadrados de la retícula bajo la curva de Lorentz es de 90%.

Las diferencias entre ambos cálculos será menor en la medida que:

 1º El cálculo se realice con un mayor número de series de pares de datos (Y-X), que da como resultado un mayor número de formas geométricas lo que permite acotar con mayor precisión el área bajo la línea de Lorentz.

 2º La distribución de las dos variables sea más uniforme, es decir, que el área bajo la curva de Lorentz sea mayor, pues la curvatura de línea que une los puntos de intersección de las variables (Y-X) es menor, de tal manera que en el caso de que la relación entre las dos variables fuera perfecta el resultado sería la línea diagonal, en ese caso las diferencias entre una línea curva y recta sería nula.

Se puede considerar que el margen de error entre ambos cálculos (2%) debido a:

1º El escaso número de series de datos relacionadas (cuatro).

2º La desigual distribución entre las dos variables que determina un área bajo la curva de Lorentz muy pequeña.

Se sitúa en el margen de error más alto que pueda haber en todas las distribuciones posibles, por lo que el cálculo basado en la obtención de la superficie bajo la  línea de Lorentz por áreas geométricas regulares es perfectamente válido.

 

Cálculo automático del Índice de Gini basado en el gráfico de Lorentz

Enlace a hoja de cálculo

Matriz de cálculo

En la siguiente matriz de cálculo introduciendo los datos en las casillas de las columnas amarillas en orden ascendente por la variable del Eje Y, hasta un máximo de 25 pares de datos (Y-X), se obtiene automáticamente la superficie bajo la curva de Lorentz, y el coeficiente e Índice de Gini.

La matriz de cálculo es un componente web de Microsoft office por lo que solamente está operativa en los navegadores de Microsoft Internet Explorer.

En otros navegadores, en el siguiente enlace se puede la abrir la matriz de cálculo en una hoja de Excel.

 

Matriz de cálculo de la superficie bajo la línea de Lorentz y el Índice de Gini

El número 1 de las dos primeras celdas se sustituyen por los datos de la primera serie del conjunto de pares datos (Y-X) que se vayan a usar

   Faltan: Microsoft Office Web Components
 
Esta página requiere Microsoft Office Web Components.

Haga clic aquí para instalar Microsoft Office Web Components..

Esta página también requiere Microsoft Internet Explorer versión 4.01 (SP-1) o posterior.

Haga clic aquí para instalar la última versión de Internet Explorer.
 

 

Javier Colomo Ugarte

Doctor en Geografía

 

.