Generación no supervisada de datos para la clasificación de queries en un sistema de diálogo

Valero Antón, Francisco de Borja

Generación no supervisada de datos para la clasificación de queries en un sistema de diálogo

Archivos

Valero - Generación no supervisada de datos para la clasificación de queries en un sistema de diá....pdf (776.73 KB)

Fecha

2020-10-14

Autores

Valero Antón, Francisco de Borja

Directores

Casacuberta Nolla, Francisco

Unidades organizativas

Centro de Investigación Pattern Recognition and Human Language Technology

Compartir

Handle

https://riunet.upv.es/handle/10251/151669

Cita bibliográfica

Valero Antón, FDB. (2020). Generación no supervisada de datos para la clasificación de queries en un sistema de diálogo. Universitat Politècnica de València. https://riunet.upv.es/handle/10251/151669

Titulación

Máster Universitario en Inteligencia Artificial, Reconocimiento de Formas e Imagen Digital-Màster Universitari en Intel·ligència Artificial, Reconeixement de Formes i Imatge Digital

Resumen

[ES] En este trabajo se experimenta con tres técnicas de aumentados de datos para ayudar al clasificador de texto a incrementar su rendimiento.

Para la experimentación se han seleccionado un gran número de corpus donde la mayoría de ellos pertenecen al dominio de la detección de intents, ya que, el objetivo de la investigación realizada en este proyecto es aprovechar el conocimiento adquirido para posteriormente aplicarlo en chatbots dedicados a servicio al cliente. Estos chatbots tendrán que detectar los intents de las queries enviadas por los usuarios para posteriormente responder consecuentemente.

Los dos modelos empleados en la experimentación son de naturaleza distinta. El primero de ellos es XGBoost que es un modelo de aprendizaje automático clásico y el segundo de ellos utiliza la versión pre-entrenada de RoBERTa que es un modelo aprendizaje automático profundo, el cual actualmente es el estado del arte en la clasificación de texto.

Finalmente, vemos que el uso de estas técnicas no aporta una mejora considerable con respecto de no utilizarlas.

[EN] In this work we experiment with three data augmentation techniques in order to help the classifier to improve its performance.

For the experimentation we chose a big number of corpus where the majority of them belong to the field of intent classification, because the knowledge obtained in this research will be used for applying in a customer service chatbot. This chatbot will answer the queries of the user, but previously it will have to detect the intent correctly.

The two models that we use for the experimentation belong to different nature. The first one is XGBoost that belongs to the classical machine learning models, and the second one uses the pre-trained version of RoBERTa that belongs to the deep learning models, that actually are the state of the art in text classification.

Finally, we will see that the use of these data augmentation techniques in natural language processing do not help to improve considerably the performance of the classifiers.

Palabras clave

Sistemas de Diálogo, Aprendizaje Automático, Clasificación de Texto, Redes Neuronales Profundas, Aumentado de datos, Modelos pre-entrenados., Dialog Systems, Machine learning, Text Classification, Deep Neural Networks, Data augmentation, Pre-trained models.

Colecciones

Servicio de alumnado - Trabajos académicos

Página completa del ítem

Generación no supervisada de datos para la clasificación de queries en un sistema de diálogo

Archivos

Fecha

Autores

Directores

Editores

Otras autorías

Unidades organizativas

Compartir

Handle

Cita bibliográfica

Titulación

Resumen

Palabras clave

Fuente

DOI

Versión del editor

Enlaces relacionados

URL

Colecciones