Modeling fish species distributions with machine learning techniques

Garcia Ventura, Cristian

Identificarse

Buscar en RiuNet

Listar

Todo RiuNet
Esta colección

Mi cuenta

Acceder

Estadísticas

Ver Estadísticas de uso

Ayuda RiuNet

Admin. UPV

Compartir/Enviar a

Citas

Estadísticas

Modeling fish species distributions with machine learning techniques

Mostrar el registro sencillo del ítem

Ficheros en el ítem

Nombre: Garcia - Modeling ...

Tamaño: 8.320Mb

Formato: PDF

Descripción: TFM

Abrir

dc.contributor.advisor	Santafé Moros, María Asunción	es_ES
dc.contributor.advisor	Vezza, Paolo	es_ES
dc.contributor.advisor	Negro, Giovanni	es_ES
dc.contributor.author	Garcia Ventura, Cristian	es_ES
dc.date.accessioned	2022-11-02T12:32:02Z
dc.date.available	2022-11-02T12:32:02Z
dc.date.created	2022-09-21
dc.date.issued	2022-11-02	es_ES
dc.identifier.uri	http://hdl.handle.net/10251/188998
dc.description.abstract	[ES] Los sistemas naturales de agua dulce se ven ampliamente afectados por las presiones hidromorfológicas, las cuales derivan principalmente de la acción humana en el medio ambiente y de el consumo excesivo de los recursos naturales. Para proteger dichos sistemas, la Unión Europea creó en 2000 la Directiva Marco del Agua, cuyo principal objetivo consiste en mejorar el estado ambiental de las masas de agua dulce mediante Planes de Gestión de Recursos Hídricos de Cuenca. En el caso de los ríos, existe una relación directa entre su estado ecológico y la presencia o ausencia de determinadas especies de peces. Las técnicas de aprendizaje automático son herramientas de gran valor que permiten estudiar la relación entre la distribución de las especies de peces y los descriptores que caracterizan los mesohábitats, áreas fluviales de 10-1 - 10-3 metros que pueden considerarse hábitats funcionales. ¿Random Forests¿ es una de las técnicas de aprendizaje automático más utilizadas. Esta técnica, la cual se basa en el uso de árboles de decisión, ha sido criticada en los últimos años debido a que dota de mayor importancia a aquellas variables con más valores o clases posibles. En este contexto, nace la técnica de ¿Conditional Inference Forests¿, cuyo enfoque reduce el sesgo de selección de variables mediante la utilización de un criterio de división en dos pasos durante la construcción de los árboles de decisión que componen el bosque de predictores. Más concretamente, el objetivo del proyecto consiste en comparar el rendimiento de ambas técnicas cuando se utilizan para predecir la habitabilidad de tres especies de peces (ejemplares jóvenes de Lethenteron Zanandreai y ejemplares adultos de Padogobius Bonelli y Phoxinus Lumaireul) a lo largo de varios ríos situados en Piamonte y Emilia-Romaña, Italia. El proyecto también estudia los efectos de equilibrar el conjunto de datos de entrada previamente a su uso para construir los modelos. Para lograr los objetivos del proyecto, se ha escrito un código basado en el lenguaje de programación R. El código se ha desarrollado con RStudio, un entorno de desarrollo integrado para R y el cual dispone de un considerable número de paquetes disponibles (como Boruta, partykit y cforest), los cuales han sido utilizados para implementar las técnicas de ¿Random Forests¿ y ¿Conditional Inference Forests¿; así como para calibrar los diferentes modelos desarrollados y comparar sus rendimientos, entre otras tareas. Finalmente, tras representar y comparar los resultados, el proyecto concluyó que los modelos que alcanzaron los mejores rendimientos fueron aquellos basados en el enfoque de Inferencia Condicional y cuyos datos de entrada habían sido previamente equilibrados con un método de sobremuestreo; dichos modelos alcanzaron los menores errores y las mayores sensibilidades y especificidades.	es_ES
dc.description.abstract	[CAT] Els sistemes naturals d'aigua dolça es veuen àmpliament afectats per les pressions hidromorfològiques, les quals deriven principalment de l'acció humana en el medi ambient i del consum excessiu dels recursos naturals. Per a protegir aquests sistemes, la Unió Europea va crear en 2000 la Directiva Marc de l'Aigua, el principal objectiu de la qual consisteix a millorar l'estat ambiental de les masses d'aigua dolça mitjançant Plans de Gestió de Recursos Hídrics de Conca. En el cas dels rius, existeix una relació directa entre el seu estat ecològic i la presència o absència de determinades espècies de peixos. Les tècniques d'aprenentatge automàtic són eines de gran valor que permeten estudiar la relació entre la distribució de les espècies de peixos i els descriptors que caracteritzen els mesohàbitats, àrees fluvials de 10-1 - 10-3 metres que poden considerar-se hàbitats funcionals. “Random Forests” és una de les tècniques d'aprenentatge automàtic més utilitzades. Aquesta tècnica, la qual es basa en l'ús d'arbres de decisió, ha estat criticada en els últims anys pel fet que dota de major importància a aquelles variables amb més valors o classes possibles. En aquest context, neix la tècnica de “Conditional Inference Forests”, l'enfocament de la qual redueix el biaix de selecció de variables mitjançant la utilització d'un criteri de divisió en dos passos durant la construcció dels arbres de decisió que componen el bosc de predictors. Més concretament, l'objectiu del projecte consisteix a comparar el rendiment de totes dues tècniques quan s'utilitzen per a predir l'habitabilitat de tres espècies de peixos (exemplars joves de Lethenteron Zanandreai i exemplars adults de Padogobius Bonelli i Phoxinus Lumaireul) al llarg de diversos rius situats a Piemont i Emília-Romanya, Itàlia. El projecte també estudia els efectes d'equilibrar el conjunt de dades d'entrada prèviament al seu ús per a construir els models. Per a aconseguir els objectius del projecte, s'ha escrit un codi basat en el llenguatge de programació R. El codi s'ha desenvolupat amb RStudio, un entorn de desenvolupament integrat per a R i el qual disposa d'un considerable nombre de paquets disponibles (com Boruta, partykit i cforest), els quals han estat utilitzats per a implementar les tècniques de “Random Forests” i “Conditional Inference Forests”; així com per a calibrar els diferents models desenvolupats i comparar els seus rendiments, entre altres tasques. Finalment, després de representar i comparar els resultats, el projecte va concloure que els models que van aconseguir els millors rendiments van ser aquells basats en l'enfocament d'Inferència Condicional i les dades d'entrada de la qual havien estat prèviament equilibrades amb un mètode de sobremostrejo; aquests models van aconseguir els menors errors i les majors sensibilitats i especificitats.	es_ES
dc.description.abstract	[EN] Freshwater natural systems are widely affected by hydromorphological pressures, which result from human actions in the environment and the overconsumption of natural resources. In order to protect them, the European Union created the Water Framework Directive in 2000. The main aim of the directive is to improve the environmental status of the freshwater bodies by means of River Basin Management Plans. In the case of the rivers, there is a direct relationship between their ecological status and the presence or absence of certain fish species. The machine learning techniques are valuable and powerful tools to study the relationship between the distribution of fish species and the habitat descriptors that characterize the mesohabitats, river areas of 10^(-1) - 10^(-3) meters that can be considered functional habitats. Random Forests is one of the most widely used machine learning techniques. This technique, which is based on the use of decision trees, has been criticized in recent years because it gives greater importance to those variables with more possible values or classes. In this context, the Conditional Inference Forests technique was born, whose approach reduces the variable selection bias by using a two-step division criterion during the construction of the decision trees that make up the forest of predictors. More specifically, the project¿s aim consists of comparing the performance of both techniques when they are used to predict the habitability of three fish species (young specimens of Lethenteron Zanandreai and adult specimens of Padogobius Bonelli and Phoxinus Lumaireul) along various rivers located in Piedmont and Emilia-Romagna, Italy. The project also studies the effects of balancing the input dataset before using them to build the models. In order to achieve the project objectives, a code based on the programming language R has been written. The code was developed with RStudio, an integrated development environment for R, which has a considerable number of packages available (such as Boruta, partykit, and cforest), which have been used to implement the Random Forests and Conditional Inference Forests techniques; as well as to calibrate the different models developed and to compare their performances, among other tasks. Finally, after representing and comparing the results, the project concluded that the models that achieved the best performances were those based on the Conditional Inference approach and whose input data was previously balanced with an oversampling method; those models reached the lowest errors and the highest sensitivities and specificities.	es_ES
dc.format.extent	111	es_ES
dc.language	Inglés	es_ES
dc.publisher	Universitat Politècnica de València	es_ES
dc.rights	Reserva de todos los derechos	es_ES
dc.subject	Técnicas de aprendizaje automático	es_ES
dc.subject	Modelado	es_ES
dc.subject	Arboles de decisión	es_ES
dc.subject	Random Forest	es_ES
dc.subject	Conditional Inference Forest	es_ES
dc.subject	Distribución de especies de peces	es_ES
dc.subject	Mesohábitat	es_ES
dc.subject	Sobremuestreo	es_ES
dc.subject	Submuestreo.	es_ES
dc.subject	Machine learning techniques	es_ES
dc.subject	Modeling	es_ES
dc.subject	Decision Trees	es_ES
dc.subject	Fish species distribution	es_ES
dc.subject	Mesohabitat	es_ES
dc.subject	Piedmont	es_ES
dc.subject	Oversampling	es_ES
dc.subject	Undersampling.	es_ES
dc.subject.classification	INGENIERIA QUIMICA	es_ES
dc.subject.other	Máster Universitario en Ingeniería Industrial-Màster Universitari en Enginyeria Industrial	es_ES
dc.title	Modeling fish species distributions with machine learning techniques	es_ES
dc.title.alternative	Modelado de la distribución de especies de peces mediante técnicas de aprendizaje automático.	es_ES
dc.title.alternative	Modelatge de la distribució d'espècies de peixos mitjançant tècniques d'aprenentatge automàtic	es_ES
dc.type	Tesis de máster	es_ES
dc.rights.accessRights	Abierto	es_ES
dc.contributor.affiliation	Universitat Politècnica de València. Departamento de Ingeniería Química y Nuclear - Departament d'Enginyeria Química i Nuclear	es_ES
dc.contributor.affiliation	Universitat Politècnica de València. Escuela Técnica Superior de Ingenieros Industriales - Escola Tècnica Superior d'Enginyers Industrials	es_ES
dc.description.bibliographicCitation	Garcia Ventura, C. (2022). Modeling fish species distributions with machine learning techniques. Universitat Politècnica de València. http://hdl.handle.net/10251/188998	es_ES
dc.description.accrualMethod	TFGM	es_ES
dc.relation.pasarela	TFGM\149756	es_ES

Este ítem aparece en la(s) siguiente(s) colección(ones)

ETSII - Trabajos académicos [10404]
Escuela Técnica Superior de Ingenieros Industriales

Mostrar el registro sencillo del ítem

Modeling fish species distributions with machine learning techniques

RiuNet: Repositorio Institucional de la Universidad Politécnica de Valencia

Buscar en RiuNet

Listar

Todo RiuNet

Esta colección

Mi cuenta

Estadísticas

Ayuda RiuNet

Admin. UPV

Compartir/Enviar a

Citas

Estadísticas

Modeling fish species distributions with machine learning techniques

Ficheros en el ítem

Este ítem aparece en la(s) siguiente(s) colección(ones)