Classificazione JEL: C49, D22, E26, K42.
Parole chiave: criminalità organizzata, infiltrazione, riciclaggio, bilanci delle imprese, machine learning.
In questo studio viene sviluppato un algoritmo di machine learning per rilevare aziende potenzialmente collegate alla criminalità organizzata (CO). A questo scopo, si utilizza un dataset di imprese italiane ottenuto integrando informazioni finanziarie provenienti da varie fonti, tra cui principalmente dati di bilancio. Per addestrare e testare il modello, un campione di oltre 28.000 aziende italiane, caratterizzate da una elevata probabilità di essere collegate alla CO, viene confrontato con sottoinsiemi di aziende presumibilmente "sane" selezionati casualmente. I risultati ottenuti mostrano che, in fase di test, l'algoritmo identifica con successo circa il 76% delle aziende collegate alla CO (recall) e il 74% delle aziende presumibilmente "sane" (specificity). Il principale output dell'algoritmo è un punteggio di rischio, che potrebbe essere utilizzato a livello operativo per supportare l'azione delle autorità anti-riciclaggio e delle forze dell'ordine (ad esempio, come strumento di screening preliminare). Conferme della sua validità operativa dovranno tuttavia venire da ulteriori applicazioni "sul campo".