Mostrar el registro sencillo del ítem
dc.contributor.advisor | Hernández Orallo, José | es_ES |
dc.contributor.advisor | Martínez Plumed, Fernando | es_ES |
dc.contributor.author | Romero Alvarado, Daniel | es_ES |
dc.date.accessioned | 2023-09-19T07:33:00Z | |
dc.date.available | 2023-09-19T07:33:00Z | |
dc.date.created | 2023-07-14 | |
dc.date.issued | 2023-09-19 | es_ES |
dc.identifier.uri | http://hdl.handle.net/10251/196726 | |
dc.description.abstract | [ES] Los grandes modelos de lenguaje natural suelen ser entrenados con datasets pretratados y limpiados de impurezas como faltas de ortografía, contracciones, etc. Por lo tanto, existe una diferencia entre los datos de entrenamiento de estos modelos y los datos que se encuentra en entornos de despliegue. En este trabajo se evalúa la robustez de cuatro modelos de lenguaje en cinco tareas de lenguaje natural frente a entradas perturbadas. Para ello, se analizan tres tipos de perturbaciones: a nivel de carácter, a nivel de palabra, y otros tipos. Los conjuntos de datos son perturbados y sus predicciones se comparan con las predicciones en los conjuntos de datos sin alterar. Los resultados muestran que los modelos son sensibles a las entradas perturbadas, con algunos modelos siendo más sensibles qué otros dependiendo de la tarea y del tipo de perturbación. En concreto, el modelo XLNet es el más robusto en general, y la tarea más sensible es la de coherencia gramatical. | es_ES |
dc.description.abstract | [EN] Large language models are usually trained using curated datasets, which lack impurities such as typographic errors, contractions, etc. Therefore, there is a gap between the training data of these models and the data they encounter in deployment situations. This work evaluates the robustness of four models in five different Natural Language Processing tasks against perturbed inputs. For that purpose, three perturbations type are analysed: character level perturbations, word level perturbations, and other types of perturbations. Datasets are perturbed and their predictions are compared against those of the unaltered datasets. Results show that models are sensitive to perturbed inputs, with some models being more sensitive that others depending on the task and the perturbation type. Precisely, the XLNet model is in general the most robust, and the most sensitive task is grammatical coherence. | es_ES |
dc.format.extent | 120 | es_ES |
dc.language | Inglés | es_ES |
dc.publisher | Universitat Politècnica de València | es_ES |
dc.rights | Reserva de todos los derechos | es_ES |
dc.subject | Procesamiento del Lenguaje Natural | es_ES |
dc.subject | Perturbaciones de Texto | es_ES |
dc.subject | Robustez | es_ES |
dc.subject | Transformers | es_ES |
dc.subject | Inferencia de Lenguaje Natural | es_ES |
dc.subject | Análisis de Emociones | es_ES |
dc.subject | Lenguaje Ofensivo y Discurso de Odio | es_ES |
dc.subject | Similitud Semántica | es_ES |
dc.subject | Aceptabilidad Lingüística | es_ES |
dc.subject | Natural Language Processing | es_ES |
dc.subject | Text Perturbation | es_ES |
dc.subject | Robustness | es_ES |
dc.subject | Natural Language Inference | es_ES |
dc.subject | Sentiment Analysis | es_ES |
dc.subject | Hate Speech and Offensive Language | es_ES |
dc.subject | Semantic Similarity | es_ES |
dc.subject | Linguistic Acceptability | es_ES |
dc.subject.classification | LENGUAJES Y SISTEMAS INFORMATICOS | es_ES |
dc.subject.other | Grado en Ciencia de Datos-Grau en Ciència de Dades | es_ES |
dc.title | Model robustness under data distribution shifts: analysing and predicting the impact of text perturbations on NLP models | es_ES |
dc.title.alternative | Robustesa del model davant canvis de distribució de dades: anàlisi i predicció de l'impacte de les pertorbacions del text en els models de PNL | es_ES |
dc.title.alternative | Robustez del modelo ante cambios en la distribución de datos: análisis y predecir el impacto de las perturbaciones del texto en llos modelos PNL | es_ES |
dc.type | Proyecto/Trabajo fin de carrera/grado | es_ES |
dc.rights.accessRights | Abierto | es_ES |
dc.contributor.affiliation | Universitat Politècnica de València. Departamento de Sistemas Informáticos y Computación - Departament de Sistemes Informàtics i Computació | es_ES |
dc.contributor.affiliation | Universitat Politècnica de València. Escola Tècnica Superior d'Enginyeria Informàtica | es_ES |
dc.description.bibliographicCitation | Romero Alvarado, D. (2023). Model robustness under data distribution shifts: analysing and predicting the impact of text perturbations on NLP models. Universitat Politècnica de València. http://hdl.handle.net/10251/196726 | es_ES |
dc.description.accrualMethod | TFGM | es_ES |
dc.relation.pasarela | TFGM\152867 | es_ES |