Resumen:
|
[ES] Uno de los principales usos diarios de internet son las redes sociales. En estas plataformas soncomunes las cuentas automatizadas no legítimas o también llamadas: ¿Contaminadores de Con-tenido¿. La existencia de dichos ...[+]
[ES] Uno de los principales usos diarios de internet son las redes sociales. En estas plataformas soncomunes las cuentas automatizadas no legítimas o también llamadas: ¿Contaminadores de Con-tenido¿. La existencia de dichos contaminadores resulta ser un problema tanto para los admin-istradores de la plataforma (por conseguir ciertos beneficios a costa incumplir las políticas delservicio) como para los usuarios. Es por ello, que en este proyecto se propone el uso de mode-los de Aprendizaje Automático para su detección. Durante el desarrollo del mismo, se analiza lasituación actual de Twitter respecto a estos contaminadores. Seguidamente, se evaluan las técnicas actuales acerca de esta rama de la Inteligencia Artificial así como el estado del arte en este ámbito.Además, se realizan diversos experimentos haciendo uso de estas técnicas, entrenando modelos deAprendizaje Automático con distintos conjuntos de datos de uso público sobre Contaminadores deContenido. Concretamente se realizan tres aproximaciónes: detección a nivel de usuario, a nivelde tweet y por último, una combinación de los mismas. Finalmente, se concluye que estas técnicasson fructíferas respecto a la detección de estos usuarios no legítimos, destacando el rendimientode modelos como los Bosques Aleatorios o las Redes Neuronales.
[-]
[EN] One of the main daily uses of the internet are social networks. On these platforms, there are com-monly automated non-legitimate accounts, the so-called ¿Content Polluters¿. The existence ofthese polluters is a problem ...[+]
[EN] One of the main daily uses of the internet are social networks. On these platforms, there are com-monly automated non-legitimate accounts, the so-called ¿Content Polluters¿. The existence ofthese polluters is a problem for both platform administrators (since they acquire benefits by vi-olating the terms of use) and users. Hence, this project proposes the use of Machine Learningmodels in order to detect and identify them. During its development, the current situation of Twit-ter regarding these polluters is analyzed. Next, both the currently employed techniques of thisbranch of Artificial Intelligence and the state of the art in this ambit are examined. Moreover,some experiments are done with the use of these techniques, training Machine Learning modelswith different datasets of public use about Content Polluters. Concretely, three approaches take place: user level detection, tweet level detection and finally, a combination of both. In the end, theconclusion is that these methods are appropriate with respect to the detection of this non-legitimateusers, emphasizing the good performance of models such as Random Forests or Neural Networks.
[-]
|