Resumen El desarrollo de modelos matemáticos predictivos de fenómenos de distinto tipo es una de las aplicaciones principales de la Minería de Datos. Los métodos simples disponibles para el desarrollo de modelos de predicción frecuentemente reducen la complejidad del problema a costa de sacrificar precisión en la respuesta. Frente a esta disyuntiva existe la posibilidad de aplicar las técnicas de minería de datos, que partiendo de la existencia y disponibilidad de grandes volúmenes de datos, exploran las relaciones y correlaciones entre las diferentes variables descriptoras del fenómeno y un conjunto de observaciones del mismo, buscando descubrir patrones de comportamiento con el objetivo de construir un modelo de predicción de dicho fenómeno. Este es el caso en la modelización de elementos contaminantes en el aire. La contaminación atmosférica es un fenómeno con un comportamiento altamente no lineal y multivariante, cuyo estudio exige disponer de matrices de datos de gran tamaño, por lo que llegan a ser necesarias herramientas de análisis y manejo de datos muy complejas. En ocasiones se utilizan varios métodos, algunos objetivos, otros un tanto subjetivos buscando un balance entre las fortalezas y debilidades existentes en las distintas herramientas, así como evaluar (frecuentemente mediante métodos de prueba y error) distintos horizontes de tiempos de anticipación en la predicción, jugar con la presencia y ausencia de variables involucradas, con la cantidad de datos, con distintas agrupaciones de los mismos, etc. siempre tratando de obtener una mejor comprensión del fenómeno y lograr las mejores predicciones posibles teniendo en cuenta las limitaciones derivadas de la disponibilidad de datos relativos al sistema analizado. En el caso concreto de esta tesis, los modelos de predicción desarrollados se enfocaron para la predicción del valor medio de Partículas Finas (PM2.5) presentes en el aire respirable con un tiempo de anticipación de 8 horas y del Ozono Troposférico Máximo (O3) con 24 horas de anticipación. Se trabajó con un interesante conjunto de técnicas de predicción partiendo de herramientas de naturaleza paramétrica tan sencillas como Persistencia, Modelación Lineal Multivariante, así como la técnica semi- paramétrica denominada “Regresión Ridge” además de herramientas de naturaleza no paramétrica como Redes Neuronales Artificiales y Máquinas de Vectores Soporte (SVM). Dado que se conocía previamente la naturaleza altamente no lineal de los contaminantes modelados, las técnicas paramétricas tuvieron el cometido de establecer límites máximos de error en la predicción y de ser importantes referencias comparativas respecto al resto de modelos desarrollados. Un resultado significativo del trabajo fue la obtención de modelos de predicción mejores a los disponibles en la bibliografía, aplicando herramientas de Redes Neuronales Artificiales como Perceptrón Multicapa (MultiLayer Percepton, MLP), Perceptrón Multi Capa Cuadrática (SMLP), Función de Base Radial (RBF) y Redes Elman, así como Máquina de Vectores Soporte (SVM).