Cómo analizar multas con Python y Pandas


Análisis con Python3 de multas de circulación impuestas en Madrid durante Junio 2017

Vamos a analizar el fichero de multas del Ayuntamiento de Madrid, con información sacada del portal de OPenData : http://datos.madrid.es

Primero importamos las librerias necesarias : pandas, numpy y matplotlib

import pandas as pd
import numpy as np
import matplotlib
import matplotlib.pyplot as plt
import datetime
import matplotlib.dates as mdates
%matplotlib inline
import matplotlib.ticker as mtick
from matplotlib.ticker import FuncFormatter
pd.options.display.float_format = '{:,.1f}'.format

Preparamos una texto para incluirlo en cada gráfico como fuente…

fuente='Fuente : Ayuntamiento de Madrid, http://datos.madrid.es'

Preparando la URL de la fuente de datos

path_web='http://datos.madrid.es/egob/catalogo/210104-158-multas-circulacion-detalle.csv'
path_local='/Users/waly/Downloads/201704_detalle_v1.csv'

cabecera de las columnas

nombre_columnas=['CALIFICACION','LUGAR','MES','ANIO','HORA','IMP_BOL','DESCUENTO','PUNTOS','DENUNCIANTE','HECHO_BOL','VEL_LIMITE','VEL_CIRCULA','COORDENADA_X','COORDENADA_Y']

Leemos los datos desde su localizacion en ‘path_web’, en este fichero tenemos los datos de Junio de 2017. Al respecto de la la identificacion de la multa en el tiempo tendremos la hora pero no el día del mes, es decir : tendremos las multas puestas a las 13:10 a lo largo de todo el mes, pero no podremos partirlas por día. No encuentro otra razón que no sea evitar cualquier vía de identificación del conductor.

multas=pd.read_csv(path_web,sep=";",encoding='windows-1250',index_col=False,header=None,names=nombre_columnas,skiprows=1)

confirmamos que ha bajado correctamente

multas.columns
Index(['CALIFICACION', 'LUGAR', 'MES', 'ANIO', 'HORA', 'IMP_BOL', 'DESCUENTO',
       'PUNTOS', 'DENUNCIANTE', 'HECHO_BOL', 'VEL_LIMITE', 'VEL_CIRCULA',
       'COORDENADA_X', 'COORDENADA_Y'],
      dtype='object')

Convertimos la columna ‘HORA’ con horas tal que 21.30 en datetime

multas['HORA']=pd.to_datetime(multas['HORA'],format='%H.%M')

Añadimos una columna hora_entera, tal que la hora (desde 00 hasta 23) para facilidad de cálculo de algunos gráficos..

for n in range(0,multas.shape[0]):
    multas.set_value(n,'hora_entera',multas.loc[n,'HORA'].strftime('%H')+':00');

Hay que tratar un poco los dos campos relacionados con velocidad (limite y velocidad multada:
a) tanto los vaklores de aquellas multas no relacionadas con velocidad en las que el valor es un string de 4 caracteres BS : ‘ ‘
b) Aquellos relacionados con velocidad en los que hay que convertir el string con la velocidad a un integer.
He generado un par de columnas adicionales para contener estos datos ya tratados..

velocidad=lambda x : 0 if x=='   ' else int(x.strip())
multas['velocidad_limite']=multas['VEL_LIMITE'].apply(velocidad)
multas['velocidad_circulacion']=multas['VEL_CIRCULA'].apply(velocidad)
multas.columns
Index(['CALIFICACION', 'LUGAR', 'MES', 'ANIO', 'HORA', 'IMP_BOL', 'DESCUENTO',
       'PUNTOS', 'DENUNCIANTE', 'HECHO_BOL', 'VEL_LIMITE', 'VEL_CIRCULA',
       'COORDENADA_X', 'COORDENADA_Y', 'hora_entera', 'velocidad_limite',
       'velocidad_circulacion'],
      dtype='object')

Empezamos a sacar algunos resultados :

Número total de multas : 246.991 multas en Junio 2017

len(multas)
246991

Cuántos puntos se han perdido en esas multas? : 28.617

puntos_totales=multas.PUNTOS.sum()
puntos_totales
28617

Cual es la suma del los importes de esas multas, antes de descuento? : 24.498.900€

euros_totales=multas.IMP_BOL.sum()
euros_totales
24498900.0

Cual es el importe de la multa de más importe?

multas.IMP_BOL.max()
1000.0

Veamos la distribución de multas por hora : (recordamos de nuevo que en esta gráfica se representa el acumulado en esa hora de todos los dias del mes)

multas_hist=multas['hora_entera'].value_counts().sort_index(axis=0)

fig = plt.figure(1, (7,4))
ax = fig.add_subplot(1,1,1)
ax=multas_hist.plot.bar()
ax.locator_params(axis='y',nbins=10)
ax.set_xlabel('Hora del día')
ax.set_ylabel('Número de  multas',size=16)
ax.grid(axis='y')
ax.set_title('Multas acumuladas por hora')
fig.suptitle(fuente,size=10,x=1,y=-0.01)
fig.savefig('multas_hora',bbox_inches = 'tight')

output_43_0

Con porcentajes en vez de números absolutos :

multas_hist_porcentaje=multas['hora_entera'].value_counts().sort_index(axis=0)/len(multas)*100
fig = plt.figure(1, (7,4))
ax = fig.add_subplot(1,1,1)
ax=multas_hist_porcentaje.plot.bar()
ax.locator_params(axis='y',nbins=10)
ax.set_xlabel('Hora del día')
ax.set_ylabel('% multas',size=16)
ax.grid(axis='y')
ax.set_title('Porcentajes de multas en cada hora')
fmt = '%3.1f%%'
yticks = mtick.FormatStrFormatter(fmt)
ax.yaxis.set_major_formatter(yticks)
fig.suptitle(fuente,size=10,x=1,y=-0.01)
fig.savefig('multas_hora_porcentaje',bbox_inches = 'tight')

output_45_0

Seguimos con la distribución de euros y puntos perdidos por hora :

multas_euros=multas.sort_values('HORA').groupby("hora_entera",sort=False).IMP_BOL
fig1 = plt.figure()
ax1 = fig1.add_subplot(1,1,1)
ax1 = multas_euros.sum().plot.bar()
ax1.locator_params(axis='y',nbins=10)
ax1.set_xlabel('Hora del día',size=16)
ax1.set_ylabel('Euros',size=16)
ax1.tick_params(axis='x',direction='out', length=6, width=2, colors='black')
#ax1.set_xticklabels(multas_euros['hora_entera'])
ax1.grid(axis='y')
ax1.set_title('Distribucion Euros de multa por hora')
fig1.suptitle(fuente,size=10,x=1,y=-0.01)
fig.savefig('euros_hora',bbox_inches = 'tight')

output_47_0

multas_puntos=multas.sort_values('HORA').groupby("hora_entera",sort=False).PUNTOS
fig1 = plt.figure(1,(7,4))
ax1 = fig1.add_subplot(1,1,1)
ax1 = multas_puntos.sum().plot.bar()
ax1.locator_params(axis='y',nbins=10)
ax1.set_xlabel('Hora del día',size=16)
ax1.set_ylabel('Puntos',size=16)
ax1.tick_params(axis='x',direction='out', length=6, width=2, colors='black')
#ax1.set_xticklabels(multas_euros['hora_entera'])
ax1.grid(axis='y')
ax1.set_title('Distribucion Puntos por hora')
fig1.suptitle(fuente,size=10,x=1,y=-0.01)
fig1.savefig('puntos_hora',bbox_inches = 'tight')

output_48_0

He calculado un par de ratios de interés, euros por multa y puntos por multa a lo largo del día, viendo que la media por la noche es significativamente superior a la media del día. Aquí vemos exclusivamente que las multas de la noche traen más euros y quitan as puntos que las multas de día, cosa que parece razonable, en ambos casos vemos que la hora caliente es de 04:00 a 05:00 de la madrugada, con más de 160€ y casi 0.6 puntos por multa.

ratio_euros_multas=multas_euros.sum()/multas_hist
fig = plt.figure(1, (7,4))
ax = fig.add_subplot(1,1,1)
ax=ratio_euros_multas.plot.bar()
ax.locator_params(axis='y',nbins=10)
ax.set_xlabel('Hora del día')
ax.set_ylabel('€/multa',size=16)
ax.grid(axis='y')
ax.set_title('Media de € por multa')
fig.suptitle(fuente,size=10,x=1,y=-0.01)
fig.savefig('media_euros_multa',bbox_inches = 'tight')

output_50_0

ratio_puntos_multas=multas_puntos.sum()/multas_hist
fig = plt.figure(1, (7,4))
ax = fig.add_subplot(1,1,1)
ax=ratio_puntos_multas.plot.bar()
ax.locator_params(axis='y',nbins=10)
ax.set_xlabel('Hora del día')
ax.set_ylabel('Puntos/multa',size=16)
ax.grid(axis='y')
ax.set_title('Media de puntos por multas en cada hora')
fig.suptitle(fuente,size=10,x=1,y=-0.01)
fig.savefig('media_puntos_multa',bbox_inches = 'tight')

output_51_0

Toca ahora analizar las multas según su tipo, siguiendo con la terminología del fichero : con el HECHO_BOL, el hecho descrito en el boletín de multa. Empezamos por las multas más frecuentes según tipo, podemos ver que más de 55000 multas vienen de saltarse las restricciones de trafico en zonas con circulación limitado, como ejemplo el centro de MAdrid. Analizaremos en profundidad este hecho en otro post. Continuaremos con un par de tablas con los puntos y euros de los hechos de multas que más puntos retiran (slatarse un semaforo en rojo) y euros recaudan (circular por zonas limitadas), y esas mismas tablas pasadas a gráficos.

multas_hecho=multas.HECHO_BOL.value_counts()
fig = plt.figure(1, (7,4))
ax = fig.add_subplot(1,1,1)
ax=multas_hecho.head(10).plot.barh()
ax.locator_params(axis='y',nbins=10)
ax.locator_params(axis='x',nbins=20)
ax.set_xlabel('Número de multas',size=20)
ax.grid(axis='x')
ax.invert_yaxis()
ax.set_yticklabels(['{:>80}'.format(x.strip()[:80]) for x in multas_hecho.index],size=10)
ax.set_title('Hechos denunciados más frecuentes')
fig.suptitle(fuente,size=10,x=1,y=-0.01)
fig.savefig('hechos_fecuentes',bbox_inches = 'tight')

output_53_0

multas_hecho_importe=multas.groupby('HECHO_BOL')
multas_hecho_importe['IMP_BOL','PUNTOS'].sum().sort_values('PUNTOS',ascending=False).reset_index().head()

.dataframe thead tr:only-child th {
text-align: right;
}

.dataframe thead th {
text-align: left;
}

.dataframe tbody tr th {
vertical-align: top;
}

HECHO_BOL IMP_BOL PUNTOS
0 REBASAR UN SEMÁFORO EN FASE ROJA. … 438,400.0 8532
1 SOBREPASAR LA VELOCIDADMÁXIMA EN VÍAS LIMITADA… 1,852,400.0 8372
2 UTILIZAR MANUALMENTE PANTALLAS, NAVEGADORES, D… 223,000.0 3303
3 CONDUCIR CON UNA TASA DE ALCOHOLEMIA NO PERMIT… 310,000.0 1830
4 SOBREPASAR LA VELOCIDADMÁXIMA EN VÍAS LIMITADA… 3,504,000.0 1438
multas_hecho_importe['IMP_BOL','PUNTOS'].sum().sort_values('IMP_BOL',ascending=False).reset_index().head()


.dataframe thead tr:only-child th {
text-align: right;
}

.dataframe thead th {
text-align: left;
}

.dataframe tbody tr th {
vertical-align: top;
}

HECHO_BOL IMP_BOL PUNTOS
0 NO RESPETAR LAS SEŃALES EN UNA VÍA DE CIRCULAC… 5,100,750.0 0
1 ESTACIONAR, SIN LA CORRESPONDIENTE AUTORIZACIÓ… 4,564,800.0 0
2 SOBREPASAR LA VELOCIDADMÁXIMA EN VÍAS LIMITADA… 3,504,000.0 1438
3 SOBREPASAR LA VELOCIDADMÁXIMA EN VÍAS LIMITADA… 1,852,400.0 8372
4 ESTACIONAR EN LUGAR PROHIBIDO DEBIDAMENTE SEŃA… 1,512,090.0 0
pd_aux=multas_hecho_importe['PUNTOS'].aggregate('sum').sort_values(ascending=False).head(7)
N=5
width=.5
ind = np.arange(len(pd_aux))
fig, ax = plt.subplots()
rects = ax.barh(ind, pd_aux.values, width, align='center',color='b', label='Puntos')
ax.set_title('Simple plot')
ax.set_ylabel('Concepto de multa',size=20)
ax.set_xlabel('Acumulado euros de multas',size=16)
ax.set_yticks(ind)
ax.set_yticklabels(['{:>80}'.format(x.strip()[:80]) for x in pd_aux.index],
                   size=12,rotation=0,color='b')
ax.invert_yaxis()


ax.grid(axis='x')
ax.set_title('Puntos por tipo multa')
ax.legend()
fig.suptitle(fuente,size=10,x=1,y=-0.01)

for rect in rects:
    width = rect.get_width()
    plt.text(width,rect.get_y()+rect.get_height()/2 ,'%1.1f%%' % (100*width/puntos_totales), size=16, ha='left', va='center')

plt.show()
fig.savefig('puntos_hecho_multa',bbox_inches = 'tight')

output_58_0

Redondeando podemos ver que el 30% de los puntos retirados se pierden saltándose un semáforo en rojo..

pd_aux=multas_hecho_importe['IMP_BOL'].aggregate('sum').sort_values(ascending=False).head(10)
N=5
width=.5
ind = np.arange(len(pd_aux))
fig, ax = plt.subplots()
rects = ax.barh(ind, pd_aux.values, width, align='center',color='b', label='Euros')
ax.set_title('Simple plot')
ax.set_ylabel('Concepto de multa',size=20)
ax.set_xlabel('Acumulado euros de multas',size=16)
ax.set_yticks(ind)
ax.set_yticklabels(['{:>80}'.format(x.strip()[:80]) for x in pd_aux.index],
                   size=12,rotation=0,color='b')
ax.invert_yaxis()


ax.grid(axis='x')
ax.set_title('Euros por tipo multa')
ax.legend()
fig.suptitle(fuente,size=10,x=1,y=-0.01)

for rect in rects:
    width = rect.get_width()
    plt.text(width,rect.get_y()+rect.get_height()/2 ,'%1.1f%%' % (100*width/euros_totales), size=16, ha='left', va='center')

plt.show()
fig.savefig('euros_hecho_multa',bbox_inches = 'tight')

output_61_0

..y el 21% de los euros recaudados vienen de multas por circular en zonas restriguidas.

Y finalmente analizaremos las multas de velocidad.
Empezamos haciendo un filtro :

multas_filtrada_velocidad=multas[multas.velocidad_circulacion!=0]

Calculando el tamaño del nuevo pandas vemos que hay 44.659 multas de velocidad.

multas_de_velocidad=len(multas_filtrada_velocidad)
multas_de_velocidad
44659

Saquemos unos cálculos interesantes

multas_filtrada_velocidad.groupby('velocidad_limite')['velocidad_circulacion'].describe()

.dataframe thead tr:only-child th {
text-align: right;
}

.dataframe thead th {
text-align: left;
}

.dataframe tbody tr th {
vertical-align: top;
}

count mean std min 25% 50% 75% max
velocidad_limite
40 698.0 61.6 7.1 47.0 57.0 60.0 65.0 90.0
50 10,300.0 68.2 6.9 52.0 63.0 66.0 71.0 99.0
60 440.0 87.7 9.2 67.0 81.0 87.0 93.0 126.0
70 26,933.0 79.5 6.5 74.0 75.0 77.0 82.0 136.0
80 92.0 104.2 7.7 95.0 97.0 104.0 109.2 126.0
90 6,196.0 100.2 5.9 95.0 96.0 98.0 102.0 152.0

Aquí podemos ver algunas características de las multas de velocidad ordenadas por la velocidad límite. Con algunas curiosidades a primera vista : la mayor parte de las multas se consiguen en zonas con 70 km/h de velocidad límite..Se ha multado a 52km/h en zonas de 50km/hr, sin embargo no se ha multado hasta los 95km/h en zona de 80km/h..aunque cierto es que el número de multas a 80km/h es despreciable : 92 de las 44.659…

Veamoslo en gráficos : número de multas

multas_filtrada_velocidad['velocidad_limite'].sort_values().unique()
array([40, 50, 60, 70, 80, 90])
multas_filtrada_velocidad.groupby('velocidad_limite')['velocidad_circulacion'].count()
velocidad_limite
40      698
50    10300
60      440
70    26933
80       92
90     6196
Name: velocidad_circulacion, dtype: int64
fig = plt.figure(1, (12,7))
width=.8
ind = np.arange(len(multas_filtrada_velocidad.groupby('velocidad_limite')['velocidad_circulacion'].aggregate('count')))


ax = fig.add_subplot(111)

rects = ax.bar(ind, multas_filtrada_velocidad.groupby('velocidad_limite')['velocidad_circulacion'].aggregate('count'), 
                width, align='center',color='b', label='nº multas')

ax.set_xticks(ind)
ax.set_xticklabels([x for x in multas_filtrada_velocidad['velocidad_limite'].sort_values().unique()],
                   size=12,rotation=0,color='b')
ax.set_xlabel('Velocidad límite en km/h')
ax.set_ylabel('Número de multas',size=16)
ax.grid(axis='y')
ax.set_title('Número de multas de velocidad por velocidad límite')
ax.legend()
fig.suptitle(fuente,size=10,x=1,y=-0.01)

for rect in rects:
    height = rect.get_height()
    plt.text(rect.get_x()+rect.get_width()/2,height ,'%1.1f%%' % (100*height/multas_de_velocidad), size=10,  ha='center', va='bottom')


plt.show()
fig.savefig('multas_velocidad_limite',bbox_inches = 'tight')

output_73_0

..y un par de gráficas adicionales con la distribución de velocidad que llevaban los multados frente ordenados por la velocidad límite :

fig = plt.figure(1, (7,4))
ax = fig.add_subplot(1,1,1)
ax.plot(
        multas_filtrada_velocidad[multas_filtrada_velocidad['velocidad_limite']==50]['velocidad_circulacion'].sort_values().unique(),
        multas_filtrada_velocidad[multas_filtrada_velocidad['velocidad_limite']==50].groupby('velocidad_circulacion')['velocidad_circulacion'].count(),
        label='50 km/h',
        )

ax.plot(
        multas_filtrada_velocidad[multas_filtrada_velocidad['velocidad_limite']==70]['velocidad_circulacion'].sort_values().unique(),
        multas_filtrada_velocidad[multas_filtrada_velocidad['velocidad_limite']==70].groupby('velocidad_circulacion')['velocidad_circulacion'].count(),
        label='70 km/h',
        )
ax.plot(
        multas_filtrada_velocidad[multas_filtrada_velocidad['velocidad_limite']==90]['velocidad_circulacion'].sort_values().unique(),
        multas_filtrada_velocidad[multas_filtrada_velocidad['velocidad_limite']==90].groupby('velocidad_circulacion')['velocidad_circulacion'].count(),
        label='90 km/h',
        )


ax.locator_params(axis='x',nbins=20)
ax.set_xlabel('Velocidad en la infracción km/h')
ax.set_xlim([50,160])
ax.set_ylim([0,5000])
ax.set_ylabel('Número de multas',size=16)
ax.grid(axis='y')
ax.set_title('Distribución de velocidad de infracción por velocidad límite')
ax.legend()

fig.suptitle(fuente,size=10,x=1,y=-0.01)
fig.savefig('distribucion_velocidad_507090',bbox_inches = 'tight')

output_75_0

fig = plt.figure(1, (7,4))
ax = fig.add_subplot(1,1,1)
ax.plot(
        multas_filtrada_velocidad[multas_filtrada_velocidad['velocidad_limite']==40]['velocidad_circulacion'].sort_values().unique(),
        multas_filtrada_velocidad[multas_filtrada_velocidad['velocidad_limite']==40].groupby('velocidad_circulacion')['velocidad_circulacion'].count(),
        label='40 km/h',
        )

ax.plot(
        multas_filtrada_velocidad[multas_filtrada_velocidad['velocidad_limite']==60]['velocidad_circulacion'].sort_values().unique(),
        multas_filtrada_velocidad[multas_filtrada_velocidad['velocidad_limite']==60].groupby('velocidad_circulacion')['velocidad_circulacion'].count(),
        label='60 km/h',
        )
ax.plot(
        multas_filtrada_velocidad[multas_filtrada_velocidad['velocidad_limite']==80]['velocidad_circulacion'].sort_values().unique(),
        multas_filtrada_velocidad[multas_filtrada_velocidad['velocidad_limite']==80].groupby('velocidad_circulacion')['velocidad_circulacion'].count(),
        label='80 km/h',
        )


ax.locator_params(axis='x',nbins=20)
ax.set_xlabel('Velocidad en la infracción km/h')
ax.set_xlim([40,130])
ax.set_ylim([0,70])
ax.set_ylabel('Número de multas',size=16)
ax.grid(axis='y')
ax.set_title('Distribución de velocidad de infracción por velocidad límite')
ax.legend()

fig.suptitle(fuente,size=10,x=1,y=-0.01)
fig.savefig('dsitribibucion_velocidad_406080',bbox_inches = 'tight')

output_76_0

Con el afan de ver las multas «extremas», no en absoluto si no con el ratio velocidad_circulacion/velocidad/limite, introducimos una nueva columna…

multas_filtrada_velocidad['ratio']=multas_filtrada_velocidad['velocidad_circulacion']/multas_filtrada_velocidad['velocidad_limite']
/Users/waly/anaconda/envs/OpenData/lib/python3.6/site-packages/ipykernel_launcher.py:1: SettingWithCopyWarning: 
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: http://pandas.pydata.org/pandas-docs/stable/indexing.html#indexing-view-versus-copy
  """Entry point for launching an IPython kernel.

y vemos los casos extremos (head y tail)..
En la parte alta : multa a 90 km/hr en el Paseo Ermita del Santo con velocida máxima 40km/h, a las 09:08…500€ del ala!
..y en la parte baja : multa a 52km/h en la Av Santo Domingo de la Calzada en zona de 50km/h a las 11:57..100€ por esos 2 km/h

multas_filtrada_velocidad.sort_values('ratio',ascending=False).head(2)
CALIFICACION LUGAR MES ANIO HORA IMP_BOL DESCUENTO PUNTOS DENUNCIANTE HECHO_BOL VEL_LIMITE VEL_CIRCULA COORDENADA_X COORDENADA_Y hora_entera velocidad_limite velocidad_circulacion ratio
78630 GRAVE F074 PO ERMITA DEL SANTO 6 2017 1900-01-01 09:08:00 500.0 SI 6 POLICIA MUNICIPAL SOBREPASAR LA VELOCIDADMÁXIMA EN VÍAS LIMITADA… 40 90 09:00 40 90 2.2
246435 GRAVE F059 AV TRECE ROSAS 6 2017 1900-01-01 10:25:00 500.0 SI 6 POLICIA MUNICIPAL SOBREPASAR LA VELOCIDADMÁXIMA EN VÍAS LIMITADA… 40 89 10:00 40 89 2.2
multas_filtrada_velocidad.sort_values('ratio',ascending=False).tail(2)
CALIFICACION LUGAR MES ANIO HORA IMP_BOL DESCUENTO PUNTOS DENUNCIANTE HECHO_BOL VEL_LIMITE VEL_CIRCULA COORDENADA_X COORDENADA_Y hora_entera velocidad_limite velocidad_circulacion ratio
210191 GRAVE M-30 CALZADA 2 KM 27.000 6 2017 1900-01-01 14:21:00 100.0 SI 0 POLICIA MUNICIPAL SOBREPASAR LA VELOCIDADMÁXIMA EN VÍAS LIMITADA… 90 95 14:00 90 95 1.1
205273 GRAVE F028 AV SANTO DOMINGO CAL 6 2017 1900-01-01 11:57:00 100.0 SI 0 POLICIA MUNICIPAL SOBREPASAR LA VELOCIDADMÁXIMA EN VÍAS LIMITADA… 50 52 11:00 50 52 1.0

Deja un comentario

Este sitio utiliza Akismet para reducir el spam. Conoce cómo se procesan los datos de tus comentarios.