Resumen:
|
[ES] En esta tesis abordamos el problema de la detección de las opiniones (stance detection, SD) en las redes sociales, centrándose en los debates políticos polarizados en Twitter. La SD consiste en determinar automáticamente ...[+]
[ES] En esta tesis abordamos el problema de la detección de las opiniones (stance detection, SD) en las redes sociales, centrándose en los debates políticos polarizados en Twitter. La SD consiste en determinar automáticamente si el autor de una publicación está a favor o en contra de un objetivo de interés, o si no se puede inferir la opinión. Nos ocupamos de temas políticos como las elecciones políticas y los referendos y, como resultado, los objetivos son tanto personas como referendos. También exploramos las comunicaciones que tienen lugar en estos debates polarizados, arrojando luz sobre las dinámicas de comunicación entre personas que tienen opiniones en acuerdo o en conflicto, enfocándonos en particular en la observación del cambio de opiniones (opinion shifting). Proponemos modelos de aprendizaje automático para la SD como si fuera un problema de clasificación binaria. Exploramos características basadas en el contenido del texto del tweet, además usamos características basadas en información contextual que no emerge directamente del texto. Utilizando el corpus de benchmark propuesto para la tarea compartida sobre la SD realizado para SemEval 2016, exploramos la contribución que el estudio de las relaciones entre el objetivo de interés y las otras entidades involucradas en el debate proporciona a la SD. Al participar en la tarea ``Stance and Gender Detection in Tweets on Catalan Independence'' organizado para IberEval 2017, hemos propuesto otras características textuales y contextuales para la SD en tweets en español y en catalán. Explorando la SD desde una perspectiva multilingüe, hemos creado un corpus de tweets en francés y uno en italiano. La extensión multilingüe de nuestro modelo (multiTACOS) muestra que la SD está influenciada más por los diferentes estilos utilizados por los usuarios para comunicar la opinión sobre objetivos de diferentes tipos (personas o referendos) en lugar del idioma utilizado. Con el objetivo de recuperar información contextual sobre la red social de los usuarios de Twitter (generalmente las tareas compartidas solo consisten en el contenido del tweet, dejando de lado la información sobre el usuario), hemos creado otros dos conjuntos de datos, uno en inglés y uno en italiano, respectivamente, sobre el Brexit (TW-BREXIT) y sobre el referéndum constitucional italiano (ConRef-STANCE-ita). En ambos casos de estudio, mostramos que los usuarios tienden a agruparse en grupos con ideas similares. Por este motivo, el modelo que explota el conocimiento de la comunidad social a la que el autor del tweet pertenece, supera los resultados obtenidos utilizando solo las funciones basadas en el contenido de la publicación. Además, la evidencia muestra que los usuarios utilizan diferentes tipos de comunicación según el nivel de acuerdo con la opinión del interlocutor, por ejemplo, las relaciones de amistad, los retweets y las citas (quote) son más comunes entre los usuarios relacionados, mientras que las respuestas (replies) se utilizan a menudo para interactuar con usuarios que tienen diferentes posiciones. Al abordar la SD desde una perspectiva diacrónica, también observamos tanto el cambio de opinión como la mitigación del debate hacia posiciones neutrales después del resultado de la votación. Además, hemos observado que tener contacto con una variedad más amplia de opiniones puede influir en la propensión a cambiar de opinión. Finalmente, mostramos que las características basadas en una representación gráfica de un dominio de interés no se limitan a la SD, sino que se puede aplicar a diferentes escenarios. Al proponer otra tarea de clasificación que realiza la identificación del talento en el deporte, especialmente en el estudio de caso del tenis de mesa, mostramos que las métricas de redes basadas en la centralidad son una señal fuerte para el talento y pueden usarse para entrenar un modelo de algoritmo de aprendizaje automático para enfrentar esta
[-]
[CA] En aquesta tesi doctoral abordem el problema de la detecció de posició (stance detection, SD) en els mitjans de comunicació social, especialment centrat en els debats polítics polaritzats a Twitter. La SD consisteix ...[+]
[CA] En aquesta tesi doctoral abordem el problema de la detecció de posició (stance detection, SD) en els mitjans de comunicació social, especialment centrat en els debats polítics polaritzats a Twitter. La SD consisteix a determinar automàticament si l'autor d'una publicació està a favor o en contra d'un objectiu o tema d'interès, o si l'opinió envers d'aquest objectiu o tema determinat no es pot inferir. Ens ocupem de temes polítics com ara esdeveniments electorals i, en conseqüència, els temes d'interès són, en concret, la SD en vers dirigents polítics i referèndums. També explorem les comunicacions que es duen a terme en aquests debats polaritzats, que posen de manifest la dinàmica de les comunicacions entre les persones que tenen opinions concordants o contrastades, especialment centrant-nos en l'observació del canvi de les opinions. Proposem models d'aprenentatge automàtic per abordar la SD com un problema de classificació. Explorem les funcions basades en el contingut textual del tweet, però també les funcions basades en la informació contextual que no afloren directament del text. Utilitzem el conjunt de dades de referència en anglès proposat per a les tasques compartides sobre SD celebrades a SemEval 2016, per explorar la contribució a la SD d'investigar les relacions entre l'objectiu d'interès i les altres entitats implicades en el debat. En la participació a la tasca compartida de ``Stance and Gender Detection in Tweets on Catalan Independence'' celebrada a IberEval 2017, es van proposar altres trets textuals i contextuals per detectar la posició dels autors dels tweets, escrits en espanyol i en català, envers la independència de Catalunya. L'extensió multilingüe del model de SD (multiTACOS) mostra que la SD es veu afectada pels diferents estils que utilitzen els usuaris per comunicar la posició envers objectius de diferents tipus (persones o referèndum) més que la llengua utilitzada. Amb l'objectiu de recuperar informació contextual sobre la xarxa social dels usuaris de Twitter (les tasques compartides solen publicar només el contingut del tweet i deixen de banda, en canvi, la informació sobre la persona que escriu el tweet), vam crear dos conjunts més de dades, un en anglès i un en italià, el corpus Brexit (TW-BREXIT) i el corpus del referèndum constitucional italià (ConRef-STANCE-ita) respectivament. En els dos casos, demostrem que els usuaris tendeixen a agrupar-se en grups d'opinió o creences similars. Per aquest motiu, el model aprofita el coneixement de la comunitat social en línia al qual pertany el tweeter i supera els resultats obtinguts utilitzant només funcions basades en el contingut de la publicació. És més, els experiments també mostren que els usuaris fan servir diferents tipus de comunicació en funció del nivell d'acord amb l'opinió del seu interlocutor, és a dir, les relacions d'amistat (friendship), retweets i cotitzacions (quotes) són més freqüents entre els usuaris amb idees afins, mentre que les respostes (replies) s'utilitzen sovint per interactuar amb els usuaris que tenen posicions o opinions diferents. A l'hora d'abordar la SD des d'una perspectiva diacrònica, també observem el canvi d'opinió i la mitigació del debat cap a una posició no alineament després del resultat de la votació. A continuació, observem que l'accés a una major diversitat de punts de vista pot influir en la propensió a canviar l'opinió personal. Finalment, mostrem que la utilitat de les funcions basades en una representació gràfica d'un domini d'interès no es limita a la SD, sinó que es pot aplicar a diferents escenaris. Proposar una altra tasca de classificació que realitzi la identificació de talent en l'esport, especialment centrada en l'estudi de cas del tennis de taula, mostrem que les xarxes mètriques basades en la centralitat són un fort senyal per a detectar el talent i també es pot utilitzar per a l'entrenament d'un model d'algorisme d'ap
[-]
[EN] In this thesis, we address the problem of stance detection (SD) in social media focusing on polarized political debates in Twitter. SD consists in automatically determine whether the author of a post is in favor or ...[+]
[EN] In this thesis, we address the problem of stance detection (SD) in social media focusing on polarized political debates in Twitter. SD consists in automatically determine whether the author of a post is in favor or against a target of interest, or whether the opinion toward the given target can not be inferred. We deal with political topics such as electoral events and consequently the targets of interest are both politicians and referendums. We also explore the communications which take place in these polarized debates shedding some light on dynamics of communications among people having concordant or contrasting opinions, particularly focusing on observing opinions' shifting. We propose machine learning models for addressing SD as a classification problem. We explore features based on the textual content of the tweet, but also features based on contextual information that do no emerge directly from the text. Using the English benchmark dataset proposed for the shared tasks on SD held at SemEval 2016, we explore the contribution on SD of investigating the relations among the target of interest and the other entities involved in the debate. Participating to the ``Stance and Gender Detection in Tweets on Catalan Independence'' shared task held at IberEval 2017, we proposed other textual and contextual based features for detecting stance on Spanish and Catalan tweets. With the main aim of facing SD in a multilingual perspective and having an homogeneous setting for multi-language comparisons, we collected tweets in French and Italian also. The multilingual extension of our SD model (multiTACOS) shows that SD is affected by the different styles used by users for communicating stance towards target of different types (persons or referendum) more than the used language.
With the aim of retrieving contextual information about the social network of Twitter's users, we created other two datasets, one in English and one in Italian, respectively about the Brexit (TW-BREXIT) and the Italian Constitutional referendum (ConRef-STANCE-ita). In both the case studies, we show that users tend to aggregate themselves in like-minded groups. For this reason, the model takes advantage of knowing the online social community the tweeter belongs to and outperforms the results obtained by using only features based on the content of the post. Furthermore, experiments show that users use different type of communication depending on the level of agreement with the interlocutor's opinion, i.e., friendship, retweets, and quote relations are more common among like-minded users, while replies are often used for interacting with users having different stances. Addressing SD in a diachronic perspective, we also observe both opinion shifting and a mitigation of the debate towards an unaligned position after the outcome of the vote. Then, we observe that accessing to a larger diversity of point of views can influence the propensity to change the personal opinion. We finally show that the usefulness of features based on a graph representation of a domain of interest is not limited to SD, but can be applied to different scenarios. Proposing another classification task that performs talent identification in sport, particularly focusing on the case study of table tennis, we show that networks metrics based on centrality are strong signal for talent and can be used for training a machine learning algorithm model for this task too.
[-]
|