Resumen:
|
[ES] En 2010, el código penal sufrió una modificación que estableció la responsabilidad penal de las personas jurídicas. Por tanto, la identificación de las actividades o procesos sujetos a riesgo en las empresas adquiere ...[+]
[ES] En 2010, el código penal sufrió una modificación que estableció la responsabilidad penal de las personas jurídicas. Por tanto, la identificación de las actividades o procesos sujetos a riesgo en las empresas adquiere relevancia a partir de ese momento.
Así, en este trabajo, proponemos el estudio del riesgo a través de técnicas estadísticas. Nos centraremos en los riesgos asociados al medio ambiente; queremos analizar y modelar el riesgo de las empresas a ser condenadas por delitos de este tipo. En un primer lugar, se buscará crear un código en R que, mediante la utilización de expresiones regulares, nos permita extraer información de interés para determinar qué factores hacen que una empresa sea más propensa a ser condenada por un delito de medioambiente en España. Se pretende que este código sea fácilmente adaptable para otras búsquedas de interés, y crear por tanto un procedimiento que permita la extracción de forma sencilla y automática de información en documentos de texto desestructurados.
Con la información extraída se ha creado una base de datos que se ha enriquecido mediante la base de datos SABI (Sistema de Análisis de Balances Ibéricos) para obtener más información sobre las empresas imputadas. Con el objetivo de determinar los factores más influyentes en el aumento del riesgo de condena a una empresa española por delitos medioambientales, esta base de datos se explora mediante la metodología de Análisis de Correspondencias Múltiples, para estudiar las relaciones entre las categorías de las variables mediante la representación de estructuras subyacentes en el conjunto de datos.
La modelización se ha llevado a cabo mediante los algoritmos Random Forest, Classification Trees, Nearest Neighbors, y Generalized Boosted Regression Modeling (GBM). A continuación, hemos evaluado la capacidad discriminatoria y predictiva del modelo empleando curvas ROC.
Los resultados del Análisis de Correspondencias Múltiples muestran el efecto significativo de las variables relacionadas con el tamaño y la actividad exterior de la empresa sobre el riesgo. Además, la curva ROC concluye que el modelo tiene suficiente poder predictivo. A pesar de las limitaciones del estudio relacionadas con el tamaño y la composición de la muestra, este estudio propone una metodología válida aplicable a diferentes tipos de riesgos de las empresas. Esta metodología permitirá implementar medidas para prevenir estos delitos en el contexto empresarial, así como un procedimiento eficaz para la extracción de información de documentos de texto a través de expresiones regulares.
[-]
[EN] In 2010, the criminal code was modified to establish the criminal liability of legal entities. Therefore, identifying activities or processes subject to risk in companies becomes relevant from that moment.
Thus, in ...[+]
[EN] In 2010, the criminal code was modified to establish the criminal liability of legal entities. Therefore, identifying activities or processes subject to risk in companies becomes relevant from that moment.
Thus, in this paper, we propose the study of risk through statistical techniques. We will focus on the risks associated with the environment; we want to analyze and model the risk of companies being convicted of crimes of this type. In the first place, we seek to create a code in R that, through regular expressions, allows us to extract information of interest to determine which factors make a company more likely to be convicted for an environmental crime in Spain. This code is intended to be easily adaptable for other searches of interest and therefore create a procedure that allows a simple and automatic extraction of information in unstructured text documents.
A database has been created with the extracted information, which has been enriched using the SABI (Sistema de Análisis de Balances Ibéricos) database to obtain more information on the imputed companies. The most influential factors in the increased risk of conviction of a Spanish company for environmental crimes is the aim; then, this database is explored using the Multiple Correspondence Analysis methodology to study the relationships between the categories of the variables through the representation of underlying structures in the data set.
The modeling has been carried out using the Random Forest, Classification Trees, Nearest Neighbors, and Generalized Boosted Regression Modeling (GBM) algorithms. Next, we evaluated the model's discriminatory and predictive capacity using ROC curves.
The results of the Multiple Correspondence Analysis show a significant effect of the variables related to the size and foreign activity of the company on the risk. Furthermore, the ROC curve concludes that the model has sufficient predictive power. Despite the study's limitations related to the size and composition of the sample, this study proposes a valid methodology applicable to different types of company risks. This methodology will allow the implementation of measures to prevent these crimes in the business context and an efficient procedure to extract information from text documents through regular expressions.
[-]
|