[ES] El objeto del presente estudio es analizar un subconjunto de datos de una operadora de metro con información de los viajes que se han producido a lo largo de varios meses. Se realizará un análisis exploratorio de datos ...[+]
[ES] El objeto del presente estudio es analizar un subconjunto de datos de una operadora de metro con información de los viajes que se han producido a lo largo de varios meses. Se realizará un análisis exploratorio de datos para la extracción de la información más relevante de los mismos. Para ello, se han utilizado herramientas de inteligencia empresarial y ciencia de datos con el objetivo conocer el comportamiento de la demanda de una línea de metro y estudiar los posibles patrones de utilización de los usuarios a lo largo del periodo de estudio para poder gestionar los recursos de la operadora de manera anticipada.
Una vez que se haya extraído la información más relevante de los datos se realizará un estudio geo-referenciado aplicado a mapas para ayudar a tomar mejores decisiones respecto al estado actual del proceso y de esta forma, poder definir una línea de acción futura. Se utilizará Kepler.gl como herramienta de visualización geográfica. La elección de los indicadores clave y su estudio se realizará mediante Apache Superset como principal herramienta de gestión de la información en la cual se creará un cuadro de mando.
Por último, se utilizarán herramientas de machine learning para predecir el número de viajes por hora utilizando distintas metodologías orientadas a la predicción de valores en series temporales mediante técnicas de aprendizaje supervisado. Para estudiar los distintos modelos generados y escoger el que mejor rendimiento muestre a la hora de realizar la predicción. A través de dichas técnicas, el operador de transporte podrá conocer de antemano la demanda y así ajustar la flota para mejorar la experiencia de usuario.
Las metodologías que se utilizarán para llevar a cabo la predicción serán los algoritmos basados en gradient boosting: XGBoost, LightGBM y CatBoost. Y las redes neuronales LSTM las cuales son un tipo de redes neuronales recurrentes cuya característica más destacada es la capacidad de almacenar información relevante de la secuencia de datos y preservarla para las predicciones futuras a modo de memoria a largo plazo.
Una vez optimizados los modelos se estudiará el rendimiento de cada uno de ellos a la hora de predecir los valores futuros para el conjunto de datos utilizado a través de un análisis estadístico de los resultados obtenidos. Con el objetivo de averiguar cuál de los diferentes modelos es el más preciso para el caso de estudio.
[-]
[EN] The purpose of this study is to analyse a subset of data from a metro operator with trip information that has been produced over several months. An exploratory data analysis will be carried out to extract the most ...[+]
[EN] The purpose of this study is to analyse a subset of data from a metro operator with trip information that has been produced over several months. An exploratory data analysis will be carried out to extract the most relevant information from the data. To this end, business intelligence and data science tools have been used to understand the behaviour of the demand for a metro line and to study the possible patterns of user use over the study period in order to be able to manage the operator's resources in advance.
Once the most relevant information has been extracted from the data, a geo-referenced study applied to maps will be carried out to help make better decisions regarding the current state of the process and thus be able to define a future line of action. Kepler.gl will be used as a geographic visualisation tool. The choice of key indicators and their study will be carried out using Apache Superset as the main information management tool in which a scorecard will be created.
Finally, machine learning tools will be used to predict the number of trips per hour using different methodologies oriented to the prediction of values in time series by means of supervised learning techniques. In order to study the different models generated and choose the one that shows the best performance when making the prediction. Through these techniques, the transport operator will be able to know the demand in advance and thus adjust the fleet to improve the user experience.
The methodologies that will be used to carry out the prediction will be the algorithms based on gradient boosting: XGBoost, LightGBM and CatBoost. And LSTM neural networks which are a type of recurrent neural networks whose most outstanding feature is the ability to store relevant information from the data sequence and preserve it for future predictions as a long-term memory.
Once the models have been optimised, the performance of each of them in predicting future values for the data set used will be studied through a statistical analysis of the results obtained. The aim is to find out which of the different models is the most accurate for the case study.
[-]
|