[ES] En este trabajo se experimenta con tres técnicas de aumentados de datos para ayudar al clasificador de texto a incrementar su rendimiento.
Para la experimentación se han seleccionado un gran número de corpus donde ...[+]
[ES] En este trabajo se experimenta con tres técnicas de aumentados de datos para ayudar al clasificador de texto a incrementar su rendimiento.
Para la experimentación se han seleccionado un gran número de corpus donde la mayoría de ellos pertenecen al dominio de la detección de intents, ya que, el objetivo de la investigación realizada en este proyecto es aprovechar el conocimiento adquirido para posteriormente aplicarlo en chatbots dedicados a servicio al cliente. Estos chatbots tendrán que detectar los intents de las queries enviadas por los usuarios para posteriormente responder consecuentemente.
Los dos modelos empleados en la experimentación son de naturaleza distinta. El primero de ellos es XGBoost que es un modelo de aprendizaje automático clásico y el segundo de ellos utiliza la versión pre-entrenada de RoBERTa que es un modelo aprendizaje automático profundo, el cual actualmente es el estado del arte en la clasificación de texto.
Finalmente, vemos que el uso de estas técnicas no aporta una mejora considerable con respecto de no utilizarlas.
[-]
[EN] In this work we experiment with three data augmentation techniques in order to help the classifier to improve its performance.
For the experimentation we chose a big number of corpus where the majority of them ...[+]
[EN] In this work we experiment with three data augmentation techniques in order to help the classifier to improve its performance.
For the experimentation we chose a big number of corpus where the majority of them belong to the field of intent classification, because the knowledge obtained in this research will be used for applying in a customer service chatbot. This chatbot will answer the queries of the user, but previously it will have to detect the intent correctly.
The two models that we use for the experimentation belong to different nature. The first one is XGBoost that belongs to the classical machine learning models, and the second one uses the pre-trained version of RoBERTa that belongs to the deep learning models, that actually are the state of the art in text classification.
Finally, we will see that the use of these data augmentation techniques in natural language processing do not help to improve considerably the performance of the classifiers.
[-]
|