- -

Model robustness under data distribution shifts: analysing and predicting the impact of text perturbations on NLP models

RiuNet: Repositorio Institucional de la Universidad Politécnica de Valencia

Compartir/Enviar a

Citas

Estadísticas

  • Estadisticas de Uso

Model robustness under data distribution shifts: analysing and predicting the impact of text perturbations on NLP models

Mostrar el registro sencillo del ítem

Ficheros en el ítem

dc.contributor.advisor Hernández Orallo, José es_ES
dc.contributor.advisor Martínez Plumed, Fernando es_ES
dc.contributor.author Romero Alvarado, Daniel es_ES
dc.date.accessioned 2023-09-19T07:33:00Z
dc.date.available 2023-09-19T07:33:00Z
dc.date.created 2023-07-14
dc.date.issued 2023-09-19 es_ES
dc.identifier.uri http://hdl.handle.net/10251/196726
dc.description.abstract [ES] Los grandes modelos de lenguaje natural suelen ser entrenados con datasets pretratados y limpiados de impurezas como faltas de ortografía, contracciones, etc. Por lo tanto, existe una diferencia entre los datos de entrenamiento de estos modelos y los datos que se encuentra en entornos de despliegue. En este trabajo se evalúa la robustez de cuatro modelos de lenguaje en cinco tareas de lenguaje natural frente a entradas perturbadas. Para ello, se analizan tres tipos de perturbaciones: a nivel de carácter, a nivel de palabra, y otros tipos. Los conjuntos de datos son perturbados y sus predicciones se comparan con las predicciones en los conjuntos de datos sin alterar. Los resultados muestran que los modelos son sensibles a las entradas perturbadas, con algunos modelos siendo más sensibles qué otros dependiendo de la tarea y del tipo de perturbación. En concreto, el modelo XLNet es el más robusto en general, y la tarea más sensible es la de coherencia gramatical. es_ES
dc.description.abstract [EN] Large language models are usually trained using curated datasets, which lack impurities such as typographic errors, contractions, etc. Therefore, there is a gap between the training data of these models and the data they encounter in deployment situations. This work evaluates the robustness of four models in five different Natural Language Processing tasks against perturbed inputs. For that purpose, three perturbations type are analysed: character level perturbations, word level perturbations, and other types of perturbations. Datasets are perturbed and their predictions are compared against those of the unaltered datasets. Results show that models are sensitive to perturbed inputs, with some models being more sensitive that others depending on the task and the perturbation type. Precisely, the XLNet model is in general the most robust, and the most sensitive task is grammatical coherence. es_ES
dc.format.extent 120 es_ES
dc.language Inglés es_ES
dc.publisher Universitat Politècnica de València es_ES
dc.rights Reserva de todos los derechos es_ES
dc.subject Procesamiento del Lenguaje Natural es_ES
dc.subject Perturbaciones de Texto es_ES
dc.subject Robustez es_ES
dc.subject Transformers es_ES
dc.subject Inferencia de Lenguaje Natural es_ES
dc.subject Análisis de Emociones es_ES
dc.subject Lenguaje Ofensivo y Discurso de Odio es_ES
dc.subject Similitud Semántica es_ES
dc.subject Aceptabilidad Lingüística es_ES
dc.subject Natural Language Processing es_ES
dc.subject Text Perturbation es_ES
dc.subject Robustness es_ES
dc.subject Natural Language Inference es_ES
dc.subject Sentiment Analysis es_ES
dc.subject Hate Speech and Offensive Language es_ES
dc.subject Semantic Similarity es_ES
dc.subject Linguistic Acceptability es_ES
dc.subject.classification LENGUAJES Y SISTEMAS INFORMATICOS es_ES
dc.subject.other Grado en Ciencia de Datos-Grau en Ciència de Dades es_ES
dc.title Model robustness under data distribution shifts: analysing and predicting the impact of text perturbations on NLP models es_ES
dc.title.alternative Robustesa del model davant canvis de distribució de dades: anàlisi i predicció de l'impacte de les pertorbacions del text en els models de PNL es_ES
dc.title.alternative Robustez del modelo ante cambios en la distribución de datos: análisis y predecir el impacto de las perturbaciones del texto en llos modelos PNL es_ES
dc.type Proyecto/Trabajo fin de carrera/grado es_ES
dc.rights.accessRights Abierto es_ES
dc.contributor.affiliation Universitat Politècnica de València. Departamento de Sistemas Informáticos y Computación - Departament de Sistemes Informàtics i Computació es_ES
dc.contributor.affiliation Universitat Politècnica de València. Escola Tècnica Superior d'Enginyeria Informàtica es_ES
dc.description.bibliographicCitation Romero Alvarado, D. (2023). Model robustness under data distribution shifts: analysing and predicting the impact of text perturbations on NLP models. Universitat Politècnica de València. http://hdl.handle.net/10251/196726 es_ES
dc.description.accrualMethod TFGM es_ES
dc.relation.pasarela TFGM\152867 es_ES


Este ítem aparece en la(s) siguiente(s) colección(ones)

Mostrar el registro sencillo del ítem