Resumen:
|
[ES] El aprendizaje con desacuerdo tiene como objetivo incorporar las etiquetas de
los anotadores en los datos de entrenamiento, permitiendo que los modelos apren-
dan de las anotaciones realizadas por un grupo diverso. ...[+]
[ES] El aprendizaje con desacuerdo tiene como objetivo incorporar las etiquetas de
los anotadores en los datos de entrenamiento, permitiendo que los modelos apren-
dan de las anotaciones realizadas por un grupo diverso. La mayoría de los sistemas
de inteligencia artificial se construyen utilizando una única etiqueta considerada es-
tándar, comúnmente determinada mediante votación mayoritaria, asumiendo que
existe una verdad objetiva única para cada instancia. Sin embargo, este enfoque no
considera los desacuerdos presentes en las anotaciones. En lugar de ignorar estas
discrepancias y utilizar una única etiqueta fija, conserva las diferencias entre las an-
otaciones de los distintos anotadores, lo que genera una representación más precisa
de la realidad, reconociendo así la validez de diversas perspectivas.
El conocimiento actual y la práctica del aprendizaje con desacuerdo aún son lim-
itados. Para abordar esta brecha, esta tesis investiga la aplicación del aprendizaje
con desacuerdo. En el estado del arte se presenta la clasificación de textos con un
enfoque específico en la tarea de identificación de estereotipos raciales explícitos
e implícitos. Los experimentos se llevaron a cabo utilizando el conjunto de datos
presentado en la tarea compartida: Detección y clasificación de estereotipos raciales en
español - Aprendizaje con Desacuerdo.
En primer lugar, introducimos los enfoques más avanzados para la detección de
estereotipos y exploramos qué técnicas de procesamiento de texto y arquitecturas de
modelos se adaptan mejor al paradigma de aprendizaje con desacuerdo. Posterior-
mente, se describen las métricas de evaluación utilizadas en esta tesis. Además, nue-
stro análisis profundiza en diversas técnicas de procesamiento de datos, aumento
de datos y un enfoque de procesamiento de texto que añade mayor contexto a las
oraciones originales. También se realizó un análisis de sentimientos y minería de
opiniones para evaluar el impacto en la detección de estereotipos.
La tesis concluye proporcionando recomendaciones sobre los aspectos que re-
quieren mayor mejora y sugiriendo direcciones para futuros trabajos. Al integrar es-
tos análisis, esta tesis ofrece un panorama completo del aprendizaje con desacuerdo
aplicado al reconocimiento de estereotipos dentro del estado del arte en la clasifi-
cación de textos. Esta tesis aborda el problema del proyecto de investigación FAK-
EnHATE (PDC2022-133118-I00, dirigido por MCIN/AEI/10.13039/501100011033 y
por la Unión Europea NextGenerationEU/PRTR) de identificar estereotipos en es-
pañol.
[-]
[EN] Learning with disagreement aims to incorporate annotator labels into the train-
ing data, enabling models to learn from crowd annotations. Most artificial intel-
ligence systems are built using a single gold standard ...[+]
[EN] Learning with disagreement aims to incorporate annotator labels into the train-
ing data, enabling models to learn from crowd annotations. Most artificial intel-
ligence systems are built using a single gold standard label, often determined by
majority voting, assuming that a single objective truth exists for every instance. This
method of learning with disagreement does not account for the presence of disagree-
ments in the annotations. Instead of discarding these differences and using a single
hard label, retaining all the annotators differences creates a more appropriate repre-
sentation of reality that acknowledges the validity of different perspectives.
The current state of knowledge and practice in applying learning with disagree-
ment is limited. To address this gap, this thesis investigates the application of learn-
ing with disagreement to the state-of-the-art of text classification, focusing on the
task of explicit and implicit racial stereotype identification. The experiments were
conducted using the dataset introduced in the shared task: DETEction and classifica-
tion of racial STereotypes in Spanish Learning with Disagreement.
First, we introduce state-of-the-art approaches to stereotype detection and ex-
plore which text processing techniques and model architectures best incorporate the
learning with disagreement paradigm. We then describe the evaluation metrics used
in this thesis. Furthermore, our analysis delves into different data processing tech-
niques, data augmentation, and a text processing technique that adds more context
to the original sentence input. We also conducted a sentiment and opinion-mining
analysis to evaluate the impact on stereotype detection.
The thesis concludes by offering insights into aspects that need further improve-
ment and suggesting directions for future work. By integrating these analyses, this
thesis provides a comprehensive survey of learning with disagreement in stereo-
type recognition within state-of-the-art text classification. This MSc thesis addresses
the problem of the FAKEnHATE research project (PDC2022-133118-I00 funded by
MCIN/AEI/10.13039/501100011033 and by European Union NextGenerationEU/PRTR)
of identifying stereotypes in Spanish.
[-]
|