Resumen:
|
[ES] En este proyecto se implementarán varias técnicas para aumentar el tamaño de la muestra de categorías de datos en problemas de clasificación utilizando datos sintéticos. Estas técnicas buscan mejorar el desequilibrio ...[+]
[ES] En este proyecto se implementarán varias técnicas para aumentar el tamaño de la muestra de categorías de datos en problemas de clasificación utilizando datos sintéticos. Estas técnicas buscan mejorar el desequilibrio que se puede encontrar en las poblaciones de datos, cuando una o algunas de las categorías de datos son escasas en número de muestras. Por lo tanto, la probabilidad a priori de las categorías de datos podría aproximarse para ser igualmente probable. Supondremos que los datos sintéticos permiten obtener una versión suavizada de los estimadores para la clasificación y, por lo tanto, el rendimiento de la clasificación podría mejorarse. La aplicación considerada en este proyecto es la apnea del sueño que es una enfermedad que comporta que un sujeto pueda tener varios microdespertares durante el sueño. De hecho, existe un gran desequilibrio entre el tiempo que el sujeto permanece dormido y despierto. Los datos consistirán en características extraídas de señales electroencefalográficas (EEG) y electrocardiográficas (ECG) medidas en los sujetos mientras duermen. Los datos sintéticos se pueden obtener, por ejemplo, como réplicas distorsionadas de los datos originales o datos sustitutos que siguen una distribución similar a los originales. Este proyecto implementará varios casos de clasificación considerando aumentar el tamaño de la muestra con diferentes cantidades de datos sintéticos. El índice de precisión de la clasificación se utilizará para evaluar la calidad y la comparación de los resultados, en combinación con la información de anotaciones clínicas.
[-]
[EN] This project will implement several techniques to augment the sample size of categories of data in classification problems using synthetic data. These techniques seek to improve the imbalance that can be found in data ...[+]
[EN] This project will implement several techniques to augment the sample size of categories of data in classification problems using synthetic data. These techniques seek to improve the imbalance that can be found in data populations, when one or some of the data categories are scarce in number of samples. Thus, the a priori probability of the categories of data could be approximated to be equally-probable. We will assume that synthetic data enables a smoothed version of the estimators for classification to be obtained, and thus, classification performance might be improved. The application considered in this project is sleep apnea which is a disease that behaves that a subject can have several micro-awakenings, also called microarousals, during sleep. Indeed, there is a great imbalance between the time that the subject remains asleep and awake. The data will consist of features extracted from electroencephalographic (EEG) and electrocardiographic (ECG) signals measured from subjects while sleeping. The synthetic data can be obtained, for instance, as distorted replicas of the original data or surrogate data that follows a similar distribution of the original ones. This project will implement several classification cases considering to increase the sample size with different amounts of synthetic data. The classification accuracy index will be used to evaluate the quality and comparison of the results, in combination with clinical annotation information.
[-]
|