Resumen:
|
[ES] En el campo de la Procesamiento del Lenguaje Natural (PLN), el reconocimiento del humor presenta retos distintivos para su completa comprensión que se derivan de la necesidad de incorporar no sólo recursos léxicos ...[+]
[ES] En el campo de la Procesamiento del Lenguaje Natural (PLN), el reconocimiento del humor presenta retos distintivos para su completa comprensión que se derivan de la necesidad de incorporar no sólo recursos léxicos sino también abarcar conocimientos fonéticos y contextuales. Estas complejidades se agravan cuando el conocimiento captado por los sistemas de Aprendizaje de Máquina (AM) se emplea para realizar predicciones en escenarios de producción reales sobre lenguas que no fueron incluidas en su entrenamiento, observándose en estos casos una elevada varianza en la inferencia.
Al mismo tiempo, existe una motivación polifacética para profundizar en el significado que subyace a las expresiones humorísticas. Esto se extiende a la aplicación del reconocimiento del humor en la identificación del discurso del odio, especialmente en las redes sociales, donde los mensajes se ocultan a menudo dentro de los chistes.
Teniendo en cuenta las consideraciones anteriore, esta tesis de máster aborda algunos aspectos desafiantes dentro del reconocimiento del humor, centrándose en perspectivas interlingüísticas y examinando su naturaleza potencialmente hiriente.
La primera parte aborda la robustez limitada de los modelos transformers en el reconocimiento del humor entre lenguas y dominios. Destaca las complejidades que surgen al tratar con juegos de palabras creativos y frases ambiguas en diferentes idiomas. El estudio explora cómo los modelos basados en aquitecturas transformer afrontan estos retos y propone incorporar el refinado multilingüe de los modelos para mejorar el reconocimiento del humor, al tiempo que considera el potencial de la traducción para la evaluación monolingüe.
El segundo análisis profundiza en la capacidad del humor para causar daño. La investigación presenta un novedoso conjunto de datos diseñado para investigar el papel del humor en la propagación de prejuicios contra grupos marginados en tuits en español. El estudio evalúa varios enfoques de sistemas y las características de diferentes instancias del conjunto de datos que impactan en el rendimiento de los modelos presentados en el tarea `''HUrtful HUmour (HUHU): Detection of humor spreading prejudice in Twitter'' organizada en el marco de la investigación.
Finalmente, la tercera parte profundiza en un paradigma novedoso dentro del ámbito de la PLN, conocido como perspectivismo, aplicado al análisis del humor sexista. El perspectivismo introduce el concepto de reconocimiento de la existencia de diversos puntos de vista a la hora de anotar elementos lingüísticos relativos a temas sujetos a debate social. Para el estudio, se volvió a anotar un subconjunto de datos de HUHU que transmitían mensajes sexistas, contando con un número considerable de anotadores con diferentes perfiles actitudinales e ideológicos.
Al integrar estos análisis, la tesis ofrece una exploración exhaustiva del reconocimiento del humor, abordando los retos que plantean los contextos multilingües, el daño potencial incorporado en el humor y la intrincada relación entre las actitudes de los anotadores y sus observaciones en un caso de humor y sexismo.
\textbf{Palabras clave}: Reconocimiento del humor, Humor Interlingüístico, Humor hiriente, Perspectivismo en PLN.
[-]
[EN] In the field of NLP, humor recognition presents distinctive challenges for its complete understanding that stem from the requirement to incorporate not only lexical resources but also encompass phonetic and contextual ...[+]
[EN] In the field of NLP, humor recognition presents distinctive challenges for its complete understanding that stem from the requirement to incorporate not only lexical resources but also encompass phonetic and contextual knowledge. These complexities are worsened when knowledge captured by ML systems is employed to make predictions in real-world production scenarios on languages that were not included in their training; in these cases, a high variance in inference is observed.
At the same time, there is a multifaceted motivation for delving into the meaning behind humorous expressions. This extends to the application of humor recognition in identifying hate speech, particularly in social media, where messages are often concealed within jokes.
Given the aforementioned considerations, this master's degree thesis tackles some challenging aspects within humor recognition, focusing on cross-language perspectives and examining its potentially hurtful nature.
The first part addresses the limited robustness of transformer models in cross-language and cross-domain humor recognition. It highlights the complexities that arise when dealing with creative wordplay and ambiguous phrases in different languages. The study explores how transformer-based models handle these challenges and proposes incorporating multilingual training to enhance humor recognition, while also considering the potential of translation for monolingual assessment.
The second analysis delves into humor's capacity to cause harm. The research introduces a novel dataset designed to investigate humor's role in propagating prejudice against marginalized groups in Spanish tweets. The study evaluates various systems approaches and the characteristics of different dataset instances that impact the on performance of presented models in the ''HUrtful HUmour (HUHU): Detection of humor spreading prejudice in Twitter'' shared task organized within the research framework.
Finally, the third part delves into a novel paradigm within the realm of NLP, known as perspectivism, applied to the analysis of humor intertwined with sexist prejudice. Perspectivism introduces the concept of acknowledging the existence of diverse viewpoints when annotating linguistic elements that pertain to topics subject to societal debate. For the study, a subset of HUHU data conveying sexist messages was re-annotated, relying on a large number of annotators with different attitudinal and ideological profiles.
By integrating these analyses, the thesis offers a comprehensive exploration of humor recognition, addressing challenges posed by cross-lingual contexts, the potential harm embedded in humor, and the intricate relationship between the attitudes of the annotators and their observations in a case of humor and sexism.
[-]
|