Model robustness under data distribution shifts: analysing and predicting the impact of text perturbations on NLP models

Romero Alvarado, Daniel

Identificarse

Buscar en RiuNet

Listar

Todo RiuNet
Esta colección

Mi cuenta

Acceder

Estadísticas

Ver Estadísticas de uso

Ayuda RiuNet

Admin. UPV

Compartir/Enviar a

Citas

Estadísticas

Model robustness under data distribution shifts: analysing and predicting the impact of text perturbations on NLP models

Mostrar el registro sencillo del ítem

Ficheros en el ítem

Nombre: Romero - Model ...

Tamaño: 9.270Mb

Formato: PDF

Abrir

dc.contributor.advisor	Hernández Orallo, José	es_ES
dc.contributor.advisor	Martínez Plumed, Fernando	es_ES
dc.contributor.author	Romero Alvarado, Daniel	es_ES
dc.date.accessioned	2023-09-19T07:33:00Z
dc.date.available	2023-09-19T07:33:00Z
dc.date.created	2023-07-14
dc.date.issued	2023-09-19	es_ES
dc.identifier.uri	http://hdl.handle.net/10251/196726
dc.description.abstract	[ES] Los grandes modelos de lenguaje natural suelen ser entrenados con datasets pretratados y limpiados de impurezas como faltas de ortografía, contracciones, etc. Por lo tanto, existe una diferencia entre los datos de entrenamiento de estos modelos y los datos que se encuentra en entornos de despliegue. En este trabajo se evalúa la robustez de cuatro modelos de lenguaje en cinco tareas de lenguaje natural frente a entradas perturbadas. Para ello, se analizan tres tipos de perturbaciones: a nivel de carácter, a nivel de palabra, y otros tipos. Los conjuntos de datos son perturbados y sus predicciones se comparan con las predicciones en los conjuntos de datos sin alterar. Los resultados muestran que los modelos son sensibles a las entradas perturbadas, con algunos modelos siendo más sensibles qué otros dependiendo de la tarea y del tipo de perturbación. En concreto, el modelo XLNet es el más robusto en general, y la tarea más sensible es la de coherencia gramatical.	es_ES
dc.description.abstract	[EN] Large language models are usually trained using curated datasets, which lack impurities such as typographic errors, contractions, etc. Therefore, there is a gap between the training data of these models and the data they encounter in deployment situations. This work evaluates the robustness of four models in five different Natural Language Processing tasks against perturbed inputs. For that purpose, three perturbations type are analysed: character level perturbations, word level perturbations, and other types of perturbations. Datasets are perturbed and their predictions are compared against those of the unaltered datasets. Results show that models are sensitive to perturbed inputs, with some models being more sensitive that others depending on the task and the perturbation type. Precisely, the XLNet model is in general the most robust, and the most sensitive task is grammatical coherence.	es_ES
dc.format.extent	120	es_ES
dc.language	Inglés	es_ES
dc.publisher	Universitat Politècnica de València	es_ES
dc.rights	Reserva de todos los derechos	es_ES
dc.subject	Procesamiento del Lenguaje Natural	es_ES
dc.subject	Perturbaciones de Texto	es_ES
dc.subject	Robustez	es_ES
dc.subject	Transformers	es_ES
dc.subject	Inferencia de Lenguaje Natural	es_ES
dc.subject	Análisis de Emociones	es_ES
dc.subject	Lenguaje Ofensivo y Discurso de Odio	es_ES
dc.subject	Similitud Semántica	es_ES
dc.subject	Aceptabilidad Lingüística	es_ES
dc.subject	Natural Language Processing	es_ES
dc.subject	Text Perturbation	es_ES
dc.subject	Robustness	es_ES
dc.subject	Natural Language Inference	es_ES
dc.subject	Sentiment Analysis	es_ES
dc.subject	Hate Speech and Offensive Language	es_ES
dc.subject	Semantic Similarity	es_ES
dc.subject	Linguistic Acceptability	es_ES
dc.subject.classification	LENGUAJES Y SISTEMAS INFORMATICOS	es_ES
dc.subject.other	Grado en Ciencia de Datos-Grau en Ciència de Dades	es_ES
dc.title	Model robustness under data distribution shifts: analysing and predicting the impact of text perturbations on NLP models	es_ES
dc.title.alternative	Robustesa del model davant canvis de distribució de dades: anàlisi i predicció de l'impacte de les pertorbacions del text en els models de PNL	es_ES
dc.title.alternative	Robustez del modelo ante cambios en la distribución de datos: análisis y predecir el impacto de las perturbaciones del texto en llos modelos PNL	es_ES
dc.type	Proyecto/Trabajo fin de carrera/grado	es_ES
dc.rights.accessRights	Abierto	es_ES
dc.contributor.affiliation	Universitat Politècnica de València. Departamento de Sistemas Informáticos y Computación - Departament de Sistemes Informàtics i Computació	es_ES
dc.contributor.affiliation	Universitat Politècnica de València. Escola Tècnica Superior d'Enginyeria Informàtica	es_ES
dc.description.bibliographicCitation	Romero Alvarado, D. (2023). Model robustness under data distribution shifts: analysing and predicting the impact of text perturbations on NLP models. Universitat Politècnica de València. http://hdl.handle.net/10251/196726	es_ES
dc.description.accrualMethod	TFGM	es_ES
dc.relation.pasarela	TFGM\152867	es_ES

Este ítem aparece en la(s) siguiente(s) colección(ones)

ETSINF - Trabajos académicos [4769]
Escola Tècnica Superior d'Enginyeria Informàtica

Mostrar el registro sencillo del ítem

Model robustness under data distribution shifts: analysing and predicting the impact of text perturbations on NLP models

RiuNet: Repositorio Institucional de la Universidad Politécnica de Valencia

Buscar en RiuNet

Listar

Todo RiuNet

Esta colección

Mi cuenta

Estadísticas

Ayuda RiuNet

Admin. UPV

Compartir/Enviar a

Citas

Estadísticas

Model robustness under data distribution shifts: analysing and predicting the impact of text perturbations on NLP models

Ficheros en el ítem

Este ítem aparece en la(s) siguiente(s) colección(ones)