[CA] Entre les tasques més importants de la Lingüística Computacional i la Recuperació d’Informació, es troba la Recerca de Respostes o Question Answering (QA). Un sistema deQAhadesercapaçderespondrealespreguntesrealitza ...[+]
[CA] Entre les tasques més importants de la Lingüística Computacional i la Recuperació d’Informació, es troba la Recerca de Respostes o Question Answering (QA). Un sistema deQAhadesercapaçderespondrealespreguntesrealitzadespelsusuarisenllenguatge natural buscant les respostes en un repositori de documents o base de coneixements. Enelssistemes deQAclàssicsespodenidentificartresetapes: 1)AnàlisidelaPregunta, per identificar el “què”, “on” o “qui” pregunta l’usuari; 2) Recuperació dels Passatges onpuguiestarlaresposta; 3) Extracció de la resposta típicament utilitzant plantilles sobre els passatges recuperats. La irrupció en els darrers anys dels models de llenguatge neuronals ha capgirat el sistema clàssic, permetent la proliferació d’algoritmes de comprensió lectora i tècniques que integren l’ús de representacions vectorials denses per captar la semàntica lingüística de la millor forma possible. Els sistemes de Recerca de Respostes neuronals són generalment l’estat de l’art per l’idioma anglès, excloent l’espanyol i el català del panorama científic. En el present Treball Final de Grau es proposa l’estudi dels models de llenguatge neuronals de l’estat de l’art per a construir un sistema de Recerca de Respostes en castellà i català. Com a base de coneixement s’utilitza la Wikipedia. El sistema realitza un anàlisi bàsic de la pregunta i, amb l’ajuda de llenguatge neuronals, extrau la resposta a partir de fragments de text que probablement la continguin.
[-]
[ES] Entre las tareas más interesantes de la Lingüística Computacional y la Recuperación de Información se encuentra la Búsqueda de Respuestas o Question Answering (QA). Un sistema de QA debe ser capaz de responder a ...[+]
[ES] Entre las tareas más interesantes de la Lingüística Computacional y la Recuperación de Información se encuentra la Búsqueda de Respuestas o Question Answering (QA). Un sistema de QA debe ser capaz de responder a preguntas realizadas por los usuarios en lenguaje natural buscando las respuestas en un repositorio de documentos o base de conocimiento.
En los sistemas de QA clásicos se pueden identificar tres etapas: 1) Análisis de la Pregunta, para identificar sobre ¿qué¿, ¿dónde¿ o ¿quién¿ pregunta el usuario; 2) Recuperación de Pasajes en los que puede estar la respuesta; 3) Extracción de la Respuesta típicamente utilizando plantillas sobre los pasajes recuperados. La irrupción en los últimos años de los modelos de lenguaje neuronales le ha dado un vuelco al esquema clásico, permitiendo así la proliferación de algoritmos de comprensión lectora y técnicas que integran el uso de representaciones vectoriales densas para captar de la mejor manera posible la semántica lingüística. Los sistemas de Búsqueda de Respuestas neuronales son generalmente el estado del arte para el idioma inglés, excluyendo al español y catalán del panorama científico.
En el presente Trabajo Final de Grado se propone el estudio de los modelos de lenguaje neuronales del estado del arte para construir un sistema de búsqueda de respuestas en español y catalán. Como base de conocimiento se utiliza la Wikipedia. El sistema realiza un análisis básico de la pregunta y con la ayuda de modelos de lenguaje neuronal extrae la respuesta a partir de fragmentos de texto como posibles candidatos a contenerla.
[-]
[EN] Question Answering (QA) is one of the most interesting tasks in Computational Linguistics and Information Retrieval.
A QA system must be able to answer questions asked by users in natural language by searching for ...[+]
[EN] Question Answering (QA) is one of the most interesting tasks in Computational Linguistics and Information Retrieval.
A QA system must be able to answer questions asked by users in natural language by searching for answers in a document repository or knowledge base.
In classical QA systems, three stages can be identified: 1) Question Analysis, to identify "what", "where" or "who" the user is asking about; 2) Retrieval of passages in which the answer can be found; 3) Extraction of the answer, typically using rule-based models on the retrieved passages. The irruption in recent years of neural language models has turned the classical scheme on its head allowing the development of Machine Reading Comprehension algorithms and techniques that integrate dense vector representations for capturing in the best possible way linguistic semantics. Question Answering systems are generally the state of art for English language, excluding Spanish and Catalan from this approach.
In the present project we propose the study of the state-of-the-art of neural language models for building a basic Question Answering system in Spanish and Catalan. Wikipedia will be used as a knowledge base. The system will perform a basic analysis of the question and with the help of neural language models extracts the answer from fragments of text as possible candidates containing it.
[-]
|