
Introducción
Por casualidad me encontré con la llamada Paradoja de Simpson, y desde el primer momento, y como buena paradoja, me llamó la atención. Me propuse escribir una entrada en el blog sobre ella. Buscando por la web encontré muchísimos artículos al respecto, de los que destaco varios en Medium, aquí y aquí por ejemplo, todos muy buenos y explicativos. Y en uno de ellos conocí al autor Judea Pearl….y vaya descubrimiento. Lo que, a priori, me pareció un entretenido juego de números explotó y me permitió descubrir la disciplina (¡o ciencia!) de la «causal inference». Empecé leyendo (y tratando de entenderlos en su totalidad!) sus papers, aquí y aquí, el segundo bastante más técnico al basarse en su libro (Causality: Models, Reasoning and Inferencies, 2000) y sobre todo el capítulo 6 de su último libro (The Book of Why, 2019). Libro que comprende una explicación muy asequible de los modelos que el autor ha ido desarrollando durante su carrera. Sin haber leído estas referencias no podríamos más que hablar de un números y las curiosidades de las fracciones resultantes de suma de otras, pero ahora podemos enfocar la explicación, aún siendo simple, de una manera más «científica»…vamos con ello.
La paradoja
Esta paradoja hace referencia a lo expresado por (Simpson, 1951, The Interpretation of Interaction in Contingency Tables), en su punto 10. Menciona una distribución por la que un determinado tratamiento es beneficioso si se aplica al género masculino y al femenino, pero sin embargo es perjudicial si se aplica en general, sin tener en cuenta ese factor. ¡¡Pero eso es imposible!!..¿o no?
Bien, eso nos dice la intución: que es imposible. Pero veamos como no es tan «contraintuitivo».
Grupo de Control | Grupo de Tratamiento | |||
Ataque Corazón | No ataque corazón | Ataque Corazón | No ataque Corazón | |
Mujer | 1 | 19 | 3 | 37 |
Hombre | 12 | 28 | 8 | 12 |
Total | 13 | 47 | 11 | 49 |
Vemos en esa tabla una distribución de datos observacionales (el paciente elige si quiere proceder con el tratamiento o no) de pacientes, divididos en dos grandes grupos, siguiendo, a priori, un procedimiento normal de experimento controlado: aquellos a los que se les ha aplicado el tratamiento (bloque de la derecha) y un grupo de control al que no se le ha aplicado. Se ha segmentado por género y se ha indicado cuantos pacientes sufrieron, posteriormente al tratamiento, un problema cardiaco o bien no lo sufrieron.
Con estos datos tenemos que responder a una pregunta muy simple:
¿el tratamiento funciona a la luz de los resultados obtenidos?
Veamos el caso particular de género femenino: un de mujeres que NO tuvieron tratamiento sufrieron un ataque de corazón, mientras que un
de aquellas que siguieron el tratamiento sufrieron el ataque. Si vamos al caso de género masculino nos encontramos con los siguientes porcentajes: un
de quienes NO lo siguieron sufrieron un ataque de corazón, ratio que se convierte en un
en el grupo en el que sí siguieron el tratamiento.
Ciñéndonos a estos números parece claro que el tratamiento no funciona. En el grupo con tratamiento vemos ratios más elevados que en el grupo de control: 7,5% frente a 5% , en el caso de género femenino y 40% frente a 30% en el caso masculino. Luego el tratamiento NO da buenos resultados.
Asegurémonos chequeando los totales: en el grupo de control y
en el grupo que siguió el tratamiento. ¿Cómo es eso posible?
Démosle las vueltas que queramos, pero esos números no mienten. De hecho, y expresándolo en términos matemáticos:
La realidad es que no existe tal implicación.
Además de la tabla que hemos expuesto encontramos muchas otras distribuciones que demuestran esta afirmación. Muy compartidos y comentados son los ejemplos de los ratios de admisión de Berkeley segmentado por género o la estadística de dos jugadores de beisbol de las ligas mundiales. En esta referencia podemos ver ambas. Todos los ejemplos tienen en común lo contraintuitivo que nos resulta: ¿como es posible que la tendencia que vemos en diferentes tipos de subpoblaciones se invierta cuando se trata de la población completa?. En el caso que nos aplica: ¿Un tratamiento que no funciona tanto si lo aplicamos a mujeres ó a hombres, de repente funciona cuando lo aplicamos a la población en general?.
Obviamente eso no es posible, pero ¿donde nos estamos confundiendo?, ¿donde está el pilar de esta paradoja?, ¿el tratamiento funciona o no funciona?.
La explicación
Si miramos la distribución de las cuatro subpoblaciones encontramos que:
Grupo Control | Tratamiento | |
Mujeres | 20 | 40 |
Hombres | 40 | 20 |
Mencionamos en el capítulo anterior que los datos eran observacionales. Están mención es clave, significa que cada persona eligió si deseaba o no someterse al tratamiento, y por lo que vemos hay cierto sesgo: el género influye claramente en la decisión. No se elegió de manera aleatoria a un conjunto de personas con la misma distribución de genero hacia cada uno de los grupos. Y podemos comprobar, además, como los porcentajes de ataque de corazón son muy diferentes desde el punto de vista de género: hablamos de treintas por ciento en un caso y unas pocas unidades de tanto por ciento en otro. Es decir: el género es una variable de confusión en este experimento (confounding variable).
El autor Judea Pearl utiliza los grafos DAG (Directional Acyclic Graph: grafo acíclico dirigido) para expresar las relaciones causales. En el caso que nos ocupa lo dibujaríamos de esta manera:

El género de la persona influye en el porcentaje de la distribución por género de personas en los grupos de control y de tratamiento y en los porcentajes de ataques de corazón, y lógicamente el hecho de tener tratamiento influye (¡no sabemos como aun!) en las posibilidades de sufrir un ataque de corazón. La consecuencia es que debemos deshacer ese sesgo. Hemos de calcular los ratios por cada subconjunto de población resultado de aplicar género, y a continuación, y dado que la distribución de género en la población en general es equitativa (50%/50%), calcularemos la media aritmética. Por tanto:
- Género Femenino : 5% de ataque de ratio de ataques de corazón en el grupo de control sin tratamiento, y 7.5% en el grupo con tratamiento
- Género Masculino: 30% de ratio de ataques de corazón en el grupo de control sin tratamiento y 40% en el grupo con tratamiento.
- En el caso general, sin tener en cuenta el género, tendremos la media aritmética. El diagrama de causalidad nos indica que hemos de segmentar por género para tener un resultado válido, luego calcularemos la media aritmética de ambos valores:
en el grupo de control sin tratamiento y
en el caso de grupo con tratamiento.
Claramente la respuesta correcta es la que indica que el tratamiento es contraproducente para combatir ataques de corazón, y se cumple en el caso de género masculino, caso femenino y población en general, esto último como no podía ser de otra manera. Es un tratamiento BBB tal como lo denomina Judea Pearl (Bad for female, Bad for male, Bad for population in general) y no es un tratamiento BBG, o ¡GGB!.
Conclusión
En el último parrafo de la introducción de (The Book of Why, 2019) el autor escribe:
«If I could sum up the message of this book in one pithy phrase, it would be that you are smarter than your data. Data do not understand causes and effects; humans do.
Judea Pearl, The Book of Why, 2019
Lo interpreto como una llamada para todos los que de una manera u otra están involucrados en el desarrollo de sistema de decisión o análisis basados en datos. Como hemos visto en el ejemplo no es suficiente con el análisis «matemático», es fundamental estudiar las relaciones de causalidad de las variables involucradas.